Extraindo na "marra" textos de um PDF bloqueado
A problemática
Em casos como este, programas que convertem PDF para HTML (pdf2html) não conseguem fazer a conversão e é aí que proponho este artigo.
A metodologia
O que se propõe, na verdade, pode ser um considerado um "Ovo de Colombo" pela simplicidade da idéia, mas é um recurso eficaz para quando o pdf2html não funciona:1. Abrir o PDF em um editor de gráfico.
2. Salvar a página em PDF como imagem (jpg, bmp, png, etc).
3. Executar um OCR para converter o gráfico do texto em texto editável.
Softwares necessários
Para operacionalizar as operações propostas neste artigo serão necessários ter instalados:1. Editor de gráfico (Gimp ou outro qualquer).
Para instalar, no Debian, digite no shell:
$ sudo apt-get install gimp
Mais informações em:
2. Programa de digitalização de imagem (kooka ou outro qualquer).
Para instalar, no Debian, digite no shell:
$ sudo apt-get install kooka
Programas de OCR para reconhecimento de caracteres (ocrad e gocr):
Para instalar, no Debian, digite no shell:
$ sudo apt-get install ocrad
E, depois:
$ sudo apt-get install gocr
Hum.. interessante a solução encontrada e muito simples. Algo do tipo "como eu não pensei nisso antes" :)