Pular para o conteúdo

Extraindo texto de arquivos PDF com pstotext

Dica publicada em Linux / Miscelânea
julio henrique maschio jmhenrique
Hits: 16.295 Categoria: Linux Subcategoria: Miscelânea
  • Indicar
  • Impressora
  • Denunciar
O Viva o Linux depende da receita de anúncios para se manter. Ative os cookies aqui para nos patrocinar.
Não conseguimos carregar os anúncios. Se usa bloqueador, considere liberar o Viva o Linux para nos patrocinar.

Extraindo texto de arquivos PDF com pstotext

Quem já não se deparou com uma vez ou outra ter que copiar textos de arquivos .pdf ou mesmo .ps? Para extrair o texto de apenas uma página, até que vai usar programas gráficos como o xpdf, mas para automatizar tarefas, por exemplo, é necessário que haja um comando que faça isso.

Existe um aplicativo que se chama pstotext (provavelmente ele está empacotado para a sua distribuição, no Debian instale com:

# apt-get install pstotext

Que faz essa tarefa. Apesar do nome sugerir que só funcione com PostScript, ele funciona muito bem com arquivos .pdf também.

O formato de execução é:

$ pstotext arquivo.pdf -output arquivo.txt

Sem a opção -output, a saída do texto formatado é na própria tela do terminal.

Também pode-se utilizar redirecionadores para que a saída seja em um arquivo:

$ pstotext arquivo.pdf > novo_arquivo.txt

(Antes que me perguntem, este programa somente extrai TEXTO)

Para mais opções:

$ pstotext --help

[ ]s, Henry

O Viva o Linux depende da receita de anúncios para se manter. Ative os cookies aqui para nos patrocinar.
Não conseguimos carregar os anúncios. Se usa bloqueador, considere liberar o Viva o Linux para nos patrocinar.
O Viva o Linux depende da receita de anúncios para se manter. Ative os cookies aqui para nos patrocinar.
Não conseguimos carregar os anúncios. Se usa bloqueador, considere liberar o Viva o Linux para nos patrocinar.

aMSN snapshot - para quem gosta de fortes emoções diariamente

Amsn e Imlib no Debian

Repositório de modelos para Blender

Man page colorida no Gentoo

Papéis de parede aleatórios do KDE

Utilizando WhatsApp via Pidgin no GNU/Linux

Linux Mint 7 não precisou de "cheatcodes" para rodar em NoBo Acer Aspire

#1 Comentário enviado por birilo em 12/12/2005 - 07:25h
Aos usuários Debian, vai também a dica..

São comandos que vem, geralmente na instalação padrão do Debian..

ps2ascii PS ou PDF para ASC2
ps2pdf ps para PDF
pdf2ps PDF to PS

E assim vai mais uma porrada de comando de conversão
#2 Comentário enviado por willians dutra em 25/03/2007 - 10:28h
valeu a dica dos dois. sou novo no uso de linux e sentia falta de converter arquivos.
#3 Comentário enviado por tedbernacchi em 30/05/2014 - 21:45h
Olá amigo boa noite, estou tentando converter arquivos .ps (PostScript) para texto, mas não estou conseguindo. A sintaxe é a mesma do exemplo acima? A formtação fica boa?? Obrigado!

Contribuir com comentário

Entre na sua conta para comentar.