Extraindo na "marra" textos de um PDF bloqueado
Estes artigo propõe-se a ensinar como extrair partes de textos de arquivos PDF bloqueados contra seleção e cópia.
A problemática
Quando um PDF é criado, existem vários níveis de edição e leitura configurados no momento da gravação. Por exemplo: alguns PDFs permitem que se selecione e copie figuras, partes de texto. Outros, não permitem qualquer edição.
Em casos como este, programas que convertem PDF para HTML (pdf2html) não conseguem fazer a conversão e é aí que proponho este artigo.
1. Abrir o PDF em um editor de gráfico.
2. Salvar a página em PDF como imagem (jpg, bmp, png, etc).
3. Executar um OCR para converter o gráfico do texto em texto editável.
1. Editor de gráfico (Gimp ou outro qualquer).
Para instalar, no Debian, digite no shell:
$ sudo apt-get install gimp
Mais informações em:
2. Programa de digitalização de imagem (kooka ou outro qualquer).
Para instalar, no Debian, digite no shell:
$ sudo apt-get install kooka
Programas de OCR para reconhecimento de caracteres (ocrad e gocr):
Para instalar, no Debian, digite no shell:
$ sudo apt-get install ocrad
E, depois:
$ sudo apt-get install gocr
Em casos como este, programas que convertem PDF para HTML (pdf2html) não conseguem fazer a conversão e é aí que proponho este artigo.
A metodologia
O que se propõe, na verdade, pode ser um considerado um "Ovo de Colombo" pela simplicidade da idéia, mas é um recurso eficaz para quando o pdf2html não funciona:1. Abrir o PDF em um editor de gráfico.
2. Salvar a página em PDF como imagem (jpg, bmp, png, etc).
3. Executar um OCR para converter o gráfico do texto em texto editável.
Softwares necessários
Para operacionalizar as operações propostas neste artigo serão necessários ter instalados:1. Editor de gráfico (Gimp ou outro qualquer).
Para instalar, no Debian, digite no shell:
$ sudo apt-get install gimp
Mais informações em:
2. Programa de digitalização de imagem (kooka ou outro qualquer).
Para instalar, no Debian, digite no shell:
$ sudo apt-get install kooka
Programas de OCR para reconhecimento de caracteres (ocrad e gocr):
Para instalar, no Debian, digite no shell:
$ sudo apt-get install ocrad
E, depois:
$ sudo apt-get install gocr
Hum.. interessante a solução encontrada e muito simples. Algo do tipo "como eu não pensei nisso antes" :)