OCR - converter imagens em texto

Publicado por Xerxes em 22/09/2022

[ Hits: 6.225 ]

2 0

Denuncie Favoritos Indicar Impressora

OCR - converter imagens em texto

Dica testada no Debian 11.

O que é OCR? Optical Character Recognition, em português, Reconhecimento Óptico de Caracteres.

Para converter o texto a partir de uma imagem em texto puro, faça o seguinte.

Instale o tesseract:

sudo apt install tesseract-ocr

E um idioma:

sudo apt-get install tesseract-ocr-[IDIOMA]

Exemplo para português:

sudo apt-get install tesseract-ocr-por

Ou pode instalar todos os idiomas:

sudo apt-get install tesseract-ocr-all

Os idiomas são: afr, amh, ara, asm, aze, aze-cyrl, bel, ben, bod, bos, bul, cat, ceb, ces, chi-sim, chi-tra, chr, cym, dan, dan-frak, deu, deu-frak, dev, dzo, ell, eng, enm, epo, est, eus, fas, fin, fra, frk, frm, gle, gle-uncial, glg, grc, guj, hat, heb, hin, hrv, hun, iku, ind, isl, ita, ita-old, jav, jpn, kan, kat, kat-old, kaz, khm, kir, kor, kur, lao, lat, lav, lit, mal, mar, mkd, mlt, msa, mya, nep, nld, nor, ori, pan, pol, por, pus, ron, rus, san, sin, slk, slk-frak, slv, spa, spa-old, sqi, srp, srp-latn, swa, swe, syr, tam, tel, tgk, tgl, tha, tir, tur, uig, ukr, urd, uzb, uzb-cyrl, vie, yid, yor

Para realizar a conversão com idioma português, veja um exemplo:

tesseract -l por imagem_entrada.png arquivo_saida

O comando tesseract reconhece texto em uma imagem fornecida e o armazena em um arquivo de saída especificado. O parâmetro -l (de "language") especifica o idioma do texto na imagem fornecida. Isso vai gerar o "arquivo_saida.txt".

Basta ver o resultado com:

cat arquivo_saida.txt

Veja uma imagem com exemplo:

Fontes:

Outras dicas deste autor

Google Chrome para Linux aqui!

Cube 2: Collect Edition (jogo FPS)

Estilizando o i3lock no seu ambiente i3

Função Snap no LXDE pela gambiarra do Xfwm4 (Debian)

Pós-instalação do Fedora 22 ou superior

Leitura recomendada

Removendo a mensagem de erro vboxclient na inicialização LinuxMint-17x e LMDE-2

Melhore sua conexão PPP

Recuperando inicialização do Slackware após atualização do kernel via slackpkg

Data e hora do sistema

Desligar e Reiniciar o Linux pelo Terminal - Todas as Formas Possíveis

Comentários

[1] Comentário enviado por Carlos_Cunha em 27/09/2022 - 14:42h

Legal!!!!

#-------------------------------------------------------------------------------------#
"Falar é fácil, me mostre o código." - Linus Torvalds
#-------------------------------------------------------------------------------------#

0 0

[2] Comentário enviado por maurixnovatrento em 23/10/2022 - 15:51h

Bem legal. Já anotado.

___________________________________________________________
Conhecimento não se Leva para o Túmulo.
https://github.com/mxnt10

0 0