Pular para o conteúdo

Convertendo imagens e documentos em texto puro (.txt)

Dica publicada em Linux / Comandos
Perfil removido removido
Hits: 6.376 Categoria: Linux Subcategoria: Comandos
  • Indicar
  • Impressora
  • Denunciar

Convertendo imagens e documentos em texto puro (.txt)

Nessa dica vou apresentar o comando tesseract para transformar qualquer imagem e/ou documento pdf em txt!

Para instalar no Debian e derivados (Ubuntu, Mint, Elementary):

sudo apt install tesseract-ocr

Em outras distribuições, procure pelo nome "tesseract" nos repositórios.

Agora, para converter em texto:

tesseract document.pdf document

O primeiro parâmetro é o arquivo de entrada para conversão, e o segundo parâmetro é o arquivo de saída para salvar o arquivo .txt. O tesseract salva automaticamente o arquivo de saída com a extensão .txt.

No caso dos arquivos de imagens (.jpg, .png), quanto mais nítido for o texto melhor será o resultado no arquivo texto de saída.

Para mais informações:

man tesseract

Exemplo de arquivo de entrada (print em .png tirado dessa dica):
Exemplo de arquivo de saída em .txt:

4shared.com - deseja salvar seus arquivos e programas?

Instalar o giFT + Apollon no Kurumin

Como fazer um pendrive butável dar boot no VirtualBox

Experiência com Sistemas para Servidor NAS Free

HTML sem tabelas (tableless)

Copiando CDs e DVDs pelo terminal com facilidade

Monitorando o CPU no GNU/Linux em modo texto

Gravar CD pelo terminal Linux

Imprimindo com múltiplas páginas em uma mesma folha

Exibindo linhas anteriores e posteriores à string pesquisada no Linux

Contribuir com comentário

Entre na sua conta para comentar.