OCR - converter imagens em texto
Dica publicada em Linux / Comandos
OCR - converter imagens em texto
Dica testada no Debian 11.
O que é OCR? Optical Character Recognition, em português, Reconhecimento Óptico de Caracteres.
Para converter o texto a partir de uma imagem em texto puro, faça o seguinte.
Instale o tesseract:
sudo apt install tesseract-ocr
E um idioma:
sudo apt-get install tesseract-ocr-[IDIOMA]
Exemplo para português:
sudo apt-get install tesseract-ocr-por
Ou pode instalar todos os idiomas:
sudo apt-get install tesseract-ocr-all
Os idiomas são: afr, amh, ara, asm, aze, aze-cyrl, bel, ben, bod, bos, bul, cat, ceb, ces, chi-sim, chi-tra, chr, cym, dan, dan-frak, deu, deu-frak, dev, dzo, ell, eng, enm, epo, est, eus, fas, fin, fra, frk, frm, gle, gle-uncial, glg, grc, guj, hat, heb, hin, hrv, hun, iku, ind, isl, ita, ita-old, jav, jpn, kan, kat, kat-old, kaz, khm, kir, kor, kur, lao, lat, lav, lit, mal, mar, mkd, mlt, msa, mya, nep, nld, nor, ori, pan, pol, por, pus, ron, rus, san, sin, slk, slk-frak, slv, spa, spa-old, sqi, srp, srp-latn, swa, swe, syr, tam, tel, tgk, tgl, tha, tir, tur, uig, ukr, urd, uzb, uzb-cyrl, vie, yid, yor
Para realizar a conversão com idioma português, veja um exemplo:
tesseract -l por imagem_entrada.png arquivo_saida
O comando tesseract reconhece texto em uma imagem fornecida e o armazena em um arquivo de saída especificado. O parâmetro -l (de "language") especifica o idioma do texto na imagem fornecida. Isso vai gerar o "arquivo_saida.txt".
Basta ver o resultado com:
cat arquivo_saida.txt
Veja uma imagem com exemplo: Fontes:
O que é OCR? Optical Character Recognition, em português, Reconhecimento Óptico de Caracteres.
Para converter o texto a partir de uma imagem em texto puro, faça o seguinte.
Instale o tesseract:
sudo apt install tesseract-ocr
E um idioma:
sudo apt-get install tesseract-ocr-[IDIOMA]
Exemplo para português:
sudo apt-get install tesseract-ocr-por
Ou pode instalar todos os idiomas:
sudo apt-get install tesseract-ocr-all
Os idiomas são: afr, amh, ara, asm, aze, aze-cyrl, bel, ben, bod, bos, bul, cat, ceb, ces, chi-sim, chi-tra, chr, cym, dan, dan-frak, deu, deu-frak, dev, dzo, ell, eng, enm, epo, est, eus, fas, fin, fra, frk, frm, gle, gle-uncial, glg, grc, guj, hat, heb, hin, hrv, hun, iku, ind, isl, ita, ita-old, jav, jpn, kan, kat, kat-old, kaz, khm, kir, kor, kur, lao, lat, lav, lit, mal, mar, mkd, mlt, msa, mya, nep, nld, nor, ori, pan, pol, por, pus, ron, rus, san, sin, slk, slk-frak, slv, spa, spa-old, sqi, srp, srp-latn, swa, swe, syr, tam, tel, tgk, tgl, tha, tir, tur, uig, ukr, urd, uzb, uzb-cyrl, vie, yid, yor
Para realizar a conversão com idioma português, veja um exemplo:
tesseract -l por imagem_entrada.png arquivo_saida
O comando tesseract reconhece texto em uma imagem fornecida e o armazena em um arquivo de saída especificado. O parâmetro -l (de "language") especifica o idioma do texto na imagem fornecida. Isso vai gerar o "arquivo_saida.txt".
Basta ver o resultado com:
cat arquivo_saida.txt
Veja uma imagem com exemplo: Fontes:
- ocr - How do I install a new language pack for Tesseract on 16.04 - Ask Ubuntu
- How To Convert Images To Text On The Linux Command Line With OCR
#-------------------------------------------------------------------------------------#
"Falar é fácil, me mostre o código." - Linus Torvalds
#-------------------------------------------------------------------------------------#