Convertendo imagens e documentos em texto puro (.txt)
Dica publicada em Linux / Comandos
Convertendo imagens e documentos em texto puro (.txt)
Nessa dica vou apresentar o comando tesseract para transformar qualquer imagem e/ou documento pdf em txt!
Para instalar no Debian e derivados (Ubuntu, Mint, Elementary):
sudo apt install tesseract-ocr
Em outras distribuições, procure pelo nome "tesseract" nos repositórios.
Agora, para converter em texto:
tesseract document.pdf document
O primeiro parâmetro é o arquivo de entrada para conversão, e o segundo parâmetro é o arquivo de saída para salvar o arquivo .txt. O tesseract salva automaticamente o arquivo de saída com a extensão .txt.
No caso dos arquivos de imagens (.jpg, .png), quanto mais nítido for o texto melhor será o resultado no arquivo texto de saída.
Para mais informações:
man tesseract
Exemplo de arquivo de entrada (print em .png tirado dessa dica): Exemplo de arquivo de saída em .txt:
Para instalar no Debian e derivados (Ubuntu, Mint, Elementary):
sudo apt install tesseract-ocr
Em outras distribuições, procure pelo nome "tesseract" nos repositórios.
Agora, para converter em texto:
tesseract document.pdf document
O primeiro parâmetro é o arquivo de entrada para conversão, e o segundo parâmetro é o arquivo de saída para salvar o arquivo .txt. O tesseract salva automaticamente o arquivo de saída com a extensão .txt.
No caso dos arquivos de imagens (.jpg, .png), quanto mais nítido for o texto melhor será o resultado no arquivo texto de saída.
Para mais informações:
man tesseract
Exemplo de arquivo de entrada (print em .png tirado dessa dica): Exemplo de arquivo de saída em .txt:
Divino, melhor que aqueles programas do windows.
___________________________________________________________