Extraindo texto de arquivos PDF com pstotext
Dica publicada em Linux / Miscelânea
Extraindo texto de arquivos PDF com pstotext
Quem já não se deparou com uma vez ou outra ter que copiar textos de arquivos .pdf ou mesmo .ps? Para extrair o texto de apenas uma página, até que vai usar programas gráficos como o xpdf, mas para automatizar tarefas, por exemplo, é necessário que haja um comando que faça isso.
Existe um aplicativo que se chama pstotext (provavelmente ele está empacotado para a sua distribuição, no Debian instale com:
# apt-get install pstotext
Que faz essa tarefa. Apesar do nome sugerir que só funcione com PostScript, ele funciona muito bem com arquivos .pdf também.
O formato de execução é:
$ pstotext arquivo.pdf -output arquivo.txt
Sem a opção -output, a saída do texto formatado é na própria tela do terminal.
Também pode-se utilizar redirecionadores para que a saída seja em um arquivo:
$ pstotext arquivo.pdf > novo_arquivo.txt
(Antes que me perguntem, este programa somente extrai TEXTO)
Para mais opções:
$ pstotext --help
[ ]s, Henry
Existe um aplicativo que se chama pstotext (provavelmente ele está empacotado para a sua distribuição, no Debian instale com:
# apt-get install pstotext
Que faz essa tarefa. Apesar do nome sugerir que só funcione com PostScript, ele funciona muito bem com arquivos .pdf também.
O formato de execução é:
$ pstotext arquivo.pdf -output arquivo.txt
Sem a opção -output, a saída do texto formatado é na própria tela do terminal.
Também pode-se utilizar redirecionadores para que a saída seja em um arquivo:
$ pstotext arquivo.pdf > novo_arquivo.txt
(Antes que me perguntem, este programa somente extrai TEXTO)
Para mais opções:
$ pstotext --help
[ ]s, Henry
São comandos que vem, geralmente na instalação padrão do Debian..
ps2ascii PS ou PDF para ASC2
ps2pdf ps para PDF
pdf2ps PDF to PS
E assim vai mais uma porrada de comando de conversão