Imagem de texto escaneado convertido em texto puro (OCR)
Dica publicada em Linux / Software
Imagem de texto escaneado convertido em texto puro (OCR)
Esta dica é para os que querem escanear livros e convertê-los em texto para editá-los.
Instale o GIMP, o tesseract e o tesseract-ocr-por.
Siga os passos:
1. Escaneie a imagem em 600 DPI em modo cores.
2. Abra a imagem no GIMP.
3. Vá no menu: imagem → modo, selecione: Tons de cinza.
4. Vá no menu: cores → Brilho e Contraste. Em brilho coloque: -60 - em contrate coloque: 127.
5. Vá no menu: filtros → Desfocar → Desfocagem gaussiana, e clique em: OK.
6. Vá no menu: filtros → Realçar → Aguçar. Em Acuidade, coloque no máximo e clique em OK.
7. Exporte a imagem com as modificações para um arquivo com extensão ".jpg".
8. Abra um terminal e digite:
tesseract imagem.jpg texto -l por
Onde imagem.jpg é o nome da imagem escaneada, e texto é a saída, que terá extensão ".txt".
Lembrando que todos os comandos devem ser executados dentro da pasta onde encontra-se a imagem escaneada.
Instale o GIMP, o tesseract e o tesseract-ocr-por.
Siga os passos:
1. Escaneie a imagem em 600 DPI em modo cores.
2. Abra a imagem no GIMP.
3. Vá no menu: imagem → modo, selecione: Tons de cinza.
4. Vá no menu: cores → Brilho e Contraste. Em brilho coloque: -60 - em contrate coloque: 127.
5. Vá no menu: filtros → Desfocar → Desfocagem gaussiana, e clique em: OK.
6. Vá no menu: filtros → Realçar → Aguçar. Em Acuidade, coloque no máximo e clique em OK.
7. Exporte a imagem com as modificações para um arquivo com extensão ".jpg".
8. Abra um terminal e digite:
tesseract imagem.jpg texto -l por
Onde imagem.jpg é o nome da imagem escaneada, e texto é a saída, que terá extensão ".txt".
Lembrando que todos os comandos devem ser executados dentro da pasta onde encontra-se a imagem escaneada.
Abraço!