Erro ao converter aquivo PDF imagem em TXT [RESOLVIDO]

1. Erro ao converter aquivo PDF imagem em TXT [RESOLVIDO]

ademir moreira
adedados

(usa Ubuntu)

Enviado em 19/08/2016 - 13:20h

Boa tarde amigos,
Estou com um problema que apareceu apos eu migrar do ubuntu 14.4 para o 16.4 com um script do blog de Marcos Antunes que consegue converter um pdf imagem em txt que é o seguinte script

#!/bin/sh
STARTPAGE=1 # Digite aqui o número da primeira página a ser lida
ENDPAGE=3 # Digite aqui o número da última página a ser lida
SOURCE=meuarquivo.pdf # Nome do PDF original
OUTPUT=meuarquivo.txt # Nome do arquivo de saída. O resultado é dado em texto simples.
RESOLUTION=300 # Digite aqui qual a resolução que o documento foi scaneado

touch $OUTPUT
for i in `seq $STARTPAGE $ENDPAGE`; do
convert -density $RESOLUTION $SOURCE\[$(($i - 1 ))\] page.jpg
echo processing page $i
tesseract -l por page.jpg tempoutput
cat tempoutput.txt >> $OUTPUT
done

isso rodando apos a instalação do "sudo apt-get install tesseract-ocr tesseract-ocr-por imagemagick"
e chamando e executando com os comandos
chmod 775 converterPDF2TXT.sh
./converterPDF2TXT.sh


ate aqui tudo bem antes ele funcionava direitinho no ubuntu 14.04 so que agora no ubuntu 16.04 ao rodar ele me retorna a saida com os seguintes erros

ademirmt@ademirmt:~/Documentos/Converte$ ./converterPDF2TXT.sh
convert: unable to open image `texto.pdf': Arquivo ou diretório não encontrado @ error/blob.c/OpenBlob/2712.
convert: no images defined `page.jpg' @ error/convert.c/ConvertImageCommand/3210.
processing page 1
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
ERROR: Can not open input file page.jpg
Error during processing.
convert: unable to open image `texto.pdf': Arquivo ou diretório não encontrado @ error/blob.c/OpenBlob/2712.
convert: no images defined `page.jpg' @ error/convert.c/ConvertImageCommand/3210.
processing page 2
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
ERROR: Can not open input file page.jpg
Error during processing.
convert: unable to open image `texto.pdf': Arquivo ou diretório não encontrado @ error/blob.c/OpenBlob/2712.
convert: no images defined `page.jpg' @ error/convert.c/ConvertImageCommand/3210.
processing page 3
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
ERROR: Can not open input file page.jpg
Error during processing.
convert: unable to open image `texto.pdf': Arquivo ou diretório não encontrado @ error/blob.c/OpenBlob/2712.
convert: no images defined `page.jpg' @ error/convert.c/ConvertImageCommand/3210.
processing page 4
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
ERROR: Can not open input file page.jpg
Error during processing.
convert: unable to open image `texto.pdf': Arquivo ou diretório não encontrado @ error/blob.c/OpenBlob/2712.
convert: no images defined `page.jpg' @ error/convert.c/ConvertImageCommand/3210.
processing page 5
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
ERROR: Can not open input file page.jpg
Error during processing.

espero que alguem possa me ajudar ou indicar um software ou outra solução para o meu problema

Agradecido

Ademir Moreira




  


2. Resolvido o problema

ademir moreira
adedados

(usa Ubuntu)

Enviado em 19/08/2016 - 13:33h

Amigos desculpem estava novamente olhando na edição do Script e notei que havia colocado letra minuscula no nome do documento e na verdade tem que ser exatamente igual o nome do arquivo obedecendo as letras maiúsculas e minusculas e tem que estar dentro da pasta e que esta o script.

agradecido

ademir






Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts