OCR de qualidade sob
Linux existe sim!
Tesseract e
gscan2pdf são a solução para quem precisa desta funcionalidade no Linux. Leia o post e aprenda a instalar estas ferramentas rapidamente.
Recentemente fui instigado várias vezes pelo meu grande amigo André Brun, da lista de discussão Gitec (Grupo Interlegis de Tecnologia). André, que trabalha na Câmara Municipal de Agudo, lá no distante Rio Grande do Sul, me questionou várias vezes sobre qual a melhor alternativa de scanner para o
Ubuntu e sobre qual o melhor software para a realização de
OCR (
Optical Character Recognition ou Reconhecimento Ótico de Caracteres), com a possibilidade de gerar um arquivo de PDF.
Para quem não conhece o André, ele é daqueles gaúchos autênticos e sistemáticos, um exímio defensor e utilizador de software livre, o qual prefere voltar a fazer legislação na pena, do que utilizar o MS-Word. ;)
Como é muito ruim desapontar um grande amigo, resolvi realizar uma pesquisa mais profunda sobre o OCR no Ubuntu, e assim, acabei chegando ao software livre
tesseract-ocr, o qual faz, e muito bem por sinal, o reconhecimento ótico de caracteres no Linux.
Mas infelizmente o tal "tesseract" trabalha em linha de comando, o que me causou uma certa decepção, já que é complexo implementar produtos que utilizam linha de comando para usuários não-técnicos. Não que o André não seja técnico, mas eu já estava pensando em utilizar aqui no trabalho.
Mas como a decepção pode ser a semente da motivação, aprofundei minha pesquisa e acabei encontrando este ótimo artigo do blog Thadeu Penna' s Wiki, o qual falava sobre o OCR de qualidade no Linux: agora é fácil!. No artigo, o autor apresenta, além o tesseract, um outro software chamado
gscan2pdf, que veio preencher perfeitamente a lacuna do tesseract e suas linhas de comandos.
Complementando as informações do artigo do Thadeu, vou descrever abaixo o processo de instalação do tesseract e do gscan2pdf no Ubuntu 9.04, para isso, vá até o terminal e digite:
sudo apt-get install tesseract-ocr tesseract-ocr-por gscan2pdf
Pronto, a parti daí o gscan2pdf estará listado no menu Aplicativos, submenu Gráficos.
Apesar do uso do gscan2pdf ser um tanto quanto intuitivo, fiz um pequeno vídeo onde demonstro sua utilização, o qual posto abaixo. Aproveitem!