Apresento ferramentas que fazem a conversão de arquivos de mídia e texto, tudo de forma simples, por linha de comando. Isso é possível através das diversas ferramentas do xpdf, xpdf-tools e ffmpeg. Desta forma é possível converter texto em pdf, pdf em html, flv em mpeg, entre outras coisas. Existem muita ferramentas simples e poderosas do GNU/Linux que passam desapercebidas.
Após a instalação dos pacotes, vou dar um exemplo de funcionalidade de cada um e mostrar suas potencialidades.
PDFTOTEX
Pdftex ou suas variantes (pdftex, pdflatex, pdfinitex, pdfvirtex) processa um documento do TeX ou texto, gerando um arquivo PDF na saída.
Sintaxe:
pdftex [opções] arquivo.txt [comandos]
arquivo.txt - arquivo do TeX ou texto a ser processado
comandos - comandos a serem processados como input do TeX após o arquivo ter sido lido
Após digitado o comando e só apertar enter e depois \end para sair, em seguida será gerado o arquivo.pdf. Digite "ls" para conferir. As opções e funcionamentos do pdftex seguem a mesma logica de manipulação de arquivos TeX.
PDFTOPPM
Este é bastante interessante, pois converte um arquivo PDF em um ou mais arquivos bitmap portável ou PBM. Em outras palavras, transforma cada pagina do seu pdf em uma imagem pbm.
Sintaxe:
pdftoppm [opções] arquivo.pdf arquivo.pbm
No final serão gerados n arquivos pbm, onde n é o número de paginas que seu arquivo pdf possui, ou o número de paginas que você determinou para conversão.
Opções:
-f n = número da pagina a ser convertida
-l n = número da ultima pagina a ser convertida
-q = não exibe nenhuma mensagem de erro
-r n = resolução em DPI (default=150 DPI)
-upw senha = senha do usuário para arquivo PDF
-v = exibe versão do comando
PDFTOPS e suas variantes (pdf2dsc e pdf2ps)
Converte um arquivo PDF em um arquivo PostScript. O pdf2dsc e o pdf2ps, se diferenciam por realizarem isso em level 2. Um leitor de PostScript e o ghostview, que vem por padrão no kde.
Sintaxe:
pdftops [opções] arquivo.pdf arquivo.ps
Opções:
-eps = gera um arquivo EPS (de Encapsulated PostScript)
-f n = número da pagina a ser convertida
-form = gera uma forma postscript que pode ser importada por programas que sejam capazes de entendê-la.
-l n = número da ultima pagina a ser convertida
-level[1]ou[2] = gera PostScript nivel 1 (caso [1]) ou 2 (caso[2]).
-levelsep = gera PostScript separável nivel 1 (caso [1]) ou 2 (caso[2]).
-noemb = não utiliza fontes Type 1 embutidas no arquivo PDF na conversão para o PostScript
-opi = gera comentários OPI para todas as imagens e formas que contenham informações OPI.
[4] Comentário enviado por viniciuspgomes em 26/03/2007 - 15:37h
Boa tarde Marcus,
Estou com o seguinte problema: Tenho vários arquivos em minha máquina (.doc, .xls. htm, .tct, etc).
Preciso criar um script onde transformo estes arquivos em pdfsem perda alguma. Já fiz vários testes, mas até agora não vi nenhuma ferramenta eficaz para isso.
Será que você pode me ajudar?
Qualquer coisa meu e-mail é viniciuspgomes@gmail.com
Fico no aguardo.
Obrigado.
[5] Comentário enviado por lane.sou em 08/04/2007 - 00:12h
Olá,
c sabe dizer se eu posso pegar o código html que o pdftohtml gera e se, na conversão, ele mantém a formatação do pdf? Tipo, se uma palavra ta em negrito no pdf, então no código fonte html tem as tags correspondentes?
Vc saberia ainda onde eu posso pegar o código (source code) desses programas? =X
por favor, se souber meu e-mail é lane.sou@gmail.com
[7] Comentário enviado por marcus-rj em 08/04/2007 - 07:30h
Se o documento vai manter exatamente a fonte? vai depender de um pouco de sorte, mas geralmente ele mantém sim!
O link para obter o fonte do programa, eh no http://sourceforge.net. Segue o link direto do pdftohtml, inclusive para versao windows! http://sourceforge.net/project/showfiles.php?group_id=45839