Pular para o conteúdo

Extraindo texto de arquivos PDF com pstotext

Dica publicada em Linux / Miscelânea
julio henrique maschio jmhenrique
Hits: 16.294 Categoria: Linux Subcategoria: Miscelânea
  • Indicar
  • Impressora
  • Denunciar
O Viva o Linux depende da receita de anúncios para se manter. Ative os cookies aqui para nos patrocinar.
Não conseguimos carregar os anúncios. Se usa bloqueador, considere liberar o Viva o Linux para nos patrocinar.

Extraindo texto de arquivos PDF com pstotext

Quem já não se deparou com uma vez ou outra ter que copiar textos de arquivos .pdf ou mesmo .ps? Para extrair o texto de apenas uma página, até que vai usar programas gráficos como o xpdf, mas para automatizar tarefas, por exemplo, é necessário que haja um comando que faça isso.

Existe um aplicativo que se chama pstotext (provavelmente ele está empacotado para a sua distribuição, no Debian instale com:

# apt-get install pstotext

Que faz essa tarefa. Apesar do nome sugerir que só funcione com PostScript, ele funciona muito bem com arquivos .pdf também.

O formato de execução é:

$ pstotext arquivo.pdf -output arquivo.txt

Sem a opção -output, a saída do texto formatado é na própria tela do terminal.

Também pode-se utilizar redirecionadores para que a saída seja em um arquivo:

$ pstotext arquivo.pdf > novo_arquivo.txt

(Antes que me perguntem, este programa somente extrai TEXTO)

Para mais opções:

$ pstotext --help

[ ]s, Henry

O Viva o Linux depende da receita de anúncios para se manter. Ative os cookies aqui para nos patrocinar.
Não conseguimos carregar os anúncios. Se usa bloqueador, considere liberar o Viva o Linux para nos patrocinar.
O Viva o Linux depende da receita de anúncios para se manter. Ative os cookies aqui para nos patrocinar.
Não conseguimos carregar os anúncios. Se usa bloqueador, considere liberar o Viva o Linux para nos patrocinar.

Amsn e Imlib no Debian

aMSN snapshot - para quem gosta de fortes emoções diariamente

Organizando com um PDA

Mantendo o cache de pacotes no Fedora

WindowMaker: error: cant find a register in class GENERAL_REGS while reloading asm

Para quem gosta de ouvir rádios online

Recuperando arquivos com o Photorec de discos zoados

#1 Comentário enviado por birilo em 12/12/2005 - 07:25h
Aos usuários Debian, vai também a dica..

São comandos que vem, geralmente na instalação padrão do Debian..

ps2ascii PS ou PDF para ASC2
ps2pdf ps para PDF
pdf2ps PDF to PS

E assim vai mais uma porrada de comando de conversão
#2 Comentário enviado por willians dutra em 25/03/2007 - 10:28h
valeu a dica dos dois. sou novo no uso de linux e sentia falta de converter arquivos.
#3 Comentário enviado por tedbernacchi em 30/05/2014 - 21:45h
Olá amigo boa noite, estou tentando converter arquivos .ps (PostScript) para texto, mas não estou conseguindo. A sintaxe é a mesma do exemplo acima? A formtação fica boa?? Obrigado!

Contribuir com comentário

Entre na sua conta para comentar.