Extraindo na "marra" textos de um PDF bloqueado

Estes artigo propõe-se a ensinar como extrair partes de textos de arquivos PDF bloqueados contra seleção e cópia.

[ Hits: 54.700 ]

Por: andre uebe em 11/07/2007


A problemática



Quando um PDF é criado, existem vários níveis de edição e leitura configurados no momento da gravação. Por exemplo: alguns PDFs permitem que se selecione e copie figuras, partes de texto. Outros, não permitem qualquer edição.

Em casos como este, programas que convertem PDF para HTML (pdf2html) não conseguem fazer a conversão e é aí que proponho este artigo.

A metodologia

O que se propõe, na verdade, pode ser um considerado um "Ovo de Colombo" pela simplicidade da idéia, mas é um recurso eficaz para quando o pdf2html não funciona:

1. Abrir o PDF em um editor de gráfico.

2. Salvar a página em PDF como imagem (jpg, bmp, png, etc).

3. Executar um OCR para converter o gráfico do texto em texto editável.

Softwares necessários

Para operacionalizar as operações propostas neste artigo serão necessários ter instalados:

1. Editor de gráfico (Gimp ou outro qualquer).

Para instalar, no Debian, digite no shell:

$ sudo apt-get install gimp

Mais informações em:
2. Programa de digitalização de imagem (kooka ou outro qualquer).

Para instalar, no Debian, digite no shell:

$ sudo apt-get install kooka

Programas de OCR para reconhecimento de caracteres (ocrad e gocr):

Para instalar, no Debian, digite no shell:

$ sudo apt-get install ocrad

E, depois:

$ sudo apt-get install gocr

    Próxima página

Páginas do artigo
   1. A problemática
   2. Convertendo o PDF em imagem
   3. Convertendo a imagem em texto por OCR
Outros artigos deste autor

CmapTools: Gestão do Conhecimento através de Mapas Conceituais no Linux

Instalando a impressora HP D1460 (série D1400) no Linux

Fontes personalizadas no GNU/Linux

Editando trilhas de GPS no formato de arquivo GPX no Linux

Abrindo um servidor X dentro de outro

Leitura recomendada

Inkscape descomplicado - Parte II

OpenVino: Inteligência Artificial em tempo real sem GPU

ARToolKit: Criando aplicativos de Realidade Aumentada

XaraLX - Uma poderosa ferramenta para webmasters

Composição por anexação e o Gimp

  
Comentários
[1] Comentário enviado por komodo em 11/07/2007 - 08:13h

Andre uebe,

Hum.. interessante a solução encontrada e muito simples. Algo do tipo "como eu não pensei nisso antes" :)

[2] Comentário enviado por laubstein em 11/07/2007 - 17:42h

Boa dica andré!

Eu costumo resolver esse problema com o PDFSaM (http://www.pdfsam.org/). O objetivo do programa é fazer "split and merge" em arquivos PDF.

O programa é desenvolvido em Java e open source (GPL).

ps:concordo com o acvsilva (logo abaixo), mas não acho justo ter que gastar várias folhas de papel para imprimir slides (de alguma matéria da faculdade) que possuem basicamente tópicos que poderiam ser colocados em somente uma ou duas folhas.

[3] Comentário enviado por GilsonDeElt em 11/07/2007 - 19:22h

Cara, d+!

Meu professor de telecomunicações bloqueia todos os PDFs dele, pra gente não copiar trechos pra fazer os resumos.
Eu tava pensando em algo assim, mas não tinha idéia de como fazer.
Nem sabia que o GIMP abria PDFs.

Valeu pela dica, cara!

[4] Comentário enviado por removido em 11/07/2007 - 21:03h

A coisa é muito bonita mas gostaria de abordar aqui um tema muito importante: o respeito à pripriedade alheia!!!

Se alguém - por algum motivo - não deseja que um determinado texto seja copiado ele deve ser respeitado e nós não temos o direito de usar recursos como este para burlar a restrição imposta.

Por isso opino que, apesar de interessante, este método não deve ser implementado.

Respeitemos o trabalho alheio!!!


[5] Comentário enviado por sergiomb em 11/07/2007 - 21:35h

eu uso o Ghostscript e GSview http://pages.cs.wisc.edu/~ghost/
leio com o gsview e volto a gravar e ficou com um pdf igual mas sem bloqueios.
Se consigo ler-lo tb consigo grava-lo, igualzinho .
Alguma duvida escreva-me que eu dei esta receita à minha mulher e neste momento , não me lembro de mais pormenores mas é simples .

[6] Comentário enviado por andreuebe em 12/07/2007 - 09:20h

Agradeço os comentários.

Realmente a necessidade é a mãe das invenções. :))

acsilva:
---------

Concordo em parte com suas colocações, uma vez que o recurso exposto não permite a copia de um documento inteiro (a não ser em contrapartida a um tremendo esforço operacional de quem está executando a tarefa - o que torna o procedimento tecnicamente inviável).

Outro ponto é que a cópia de trechos com a devida citação de autor não caracteriza quebra de propriedade intelectual. Prova disto é que a fotocópia de livros na sua integra é crime mas parte do mesmo, não!

A partir da limitação técnica do recurso exposto e da própria caracterização de cópia ilegal, creio que não se está infringindo propriedade intelectual.

Assim, neste contexto, bloquear um PDF para cópia de trechos do texto tem, a titulo de comparação, o mesmo carater de preciosísmo que teria alguem que publicasse um livro e não quisesse que alguém tirasse fotocópia de qualquer parte do mesmo. Reflita também que, ao incentivar a reprodução do trecho ou da idéia contida em um texto, com a devida referência bibliográfica, faz-se, na verdade, uma divulgação do trabalho e do nome do autor. Logo, o problema não é a reprodução mas a falta de citação.

Verifique que o titulo é "(...) Textos de um PDF (...) e, não, "PDF na integra". Mas, talvez, o mais adequado teria sido colocar no Titulo: "(...) partes de Textos (...)" em vez de, simplesmente, "(...) textos (...)". O que, apesar de tudo, está na descrição do artigo.



Mas obrigado pelo comentário :)




[7] Comentário enviado por andreuebe em 12/07/2007 - 09:25h

Só complementando:

O procedimento poderia ser, inclusive, utilizado através de um livro físico e um scanner... A questão foi só o uso do GIMP.

Fica a recomendação (e acho que isto tem que ser respeitado, para quem quer o respeito acadêmico e profissional) de SEMPRE citar a fonte de onde se extrai o dado.

Inclusive, a dois tipos de citação em trabalhos acadêmicos:

1) O do trecho: onde são reproduzidos, na integra (entre aspas e com o número de página), e

2) O da idéia: Os que são comentados pelos autor do trabalho onde o trecho foi extraido, mantendo-se a devida referencia bibliográfica.

[8] Comentário enviado por andreuebe em 12/07/2007 - 10:08h

sergiomb

Vou testar e qualquer coisa te falo.

Abs

Andre

[9] Comentário enviado por tenchi em 12/07/2007 - 13:54h

Karamba, o trabalho do autor foi muito bom.
Mostrou recursos que eu desconhecia do Gimp (abrir PDFs).
Eu já havia pensado numa solução deste tipo, mas nunca havia pensado (ugh) em testar pra ver se funcionava. O artigo mostrou que funciona!
Quanto à questão dos riscos de seu usar esta técnica, criticar o autor e o mesmo que culpar a ciência pelas guerras, já que ela criou a pólvora, napalm, bomba atômica, as câmaras de gás; culpá-la pelo aquecimento global: gasolina, industrias, etc.
Quanto ao uso da técnica apresentada, deve-se levar em questão o bom senso do utilizador. Se a pessoa tiver o intuito de usar textos sem respeitar os créditos originais, não há proteção de pdf que a fará não chegar à este objetivo, certo?
Uma coisa que aprendi: A melhor maneira de proteger um computador é: nada de anti-virus. Basta deixa-lo offline, sem nenhuma ligação com o mundo exterior (disquetes, CD-ROM, USB, etc.), usar cadeados (sim, para evitar acesso físico), além de usá-lo o mínimo possível. Somente os tolos acreditam que existe segurança no mundo digital.
Quebra de DRM, engenharia reversa... Sim! é muito mais fácil colocar uma cerca elétrica, que avisar às pessoas que não podem entrar em determinado local. Infelizmente.

Só acho q o "na marra" do título poderia ser substituído por "Extraindo 'carinhosamente' textos de um PDF bloqueados". Ficaria muito mais fOFuXxO... (e ainda agradaria muitos que reclamaram)
HUAHAUHAUHAUAUHAU

[10] Comentário enviado por removido em 12/07/2007 - 23:51h

Meu kerido tenchi, vc como sempre dando seus pitacos...

Não critico o texto do uebe mas expressei minha opinião de que se o texto está com cópia não permitida deve ser respeitado e o proprietário contatado para permitir ou não a reprodução do mesmo.

Tanto que não entendi nada: se vc for fazer uma citação não há o menor sentido em copiar um trecho de um artigo em PDF como descrito aki.Basta apenas copiá-lo manualmente no abiword ou openoffice e fazer a citação.

citação é uma coisa e cópia ilegal é outra completamente diferente, do todo ou de sua parte.

paremos de tentar de justificar o injustificável.

Mas o trabalho do uebe é tecnicamente interessante e mesmo assim mantenho minha opinião: respeitemos o trabalho alheio.

existem outras formas legais de chegar ao mesmo ponto que não passa necessariamente pelo deboche do tenchi nem do desrespeito a propriedade intelectual.


[11] Comentário enviado por tenchi em 13/07/2007 - 11:22h

Caro Antonio Carlos, não quero começar confusão aqui, mas...
- Em nenhum momento eu me referi à você em meus comentários...
- Não usei da "arte do deboche" em momento algum, ou pelo menos não tive essa intenção. Se você não tem o mínimo de senso de humor, não sou eu que vou mudar isto (e nem tenho esta intenção).
- Pitaco: Opinião. Ponto de vista. Isto aqui não é uma comunidade? Onde todos temos o direito de dar pitaco? Sua opinião não foi um pitaco? Ou foi uma argumentação baseada em estudos, pesquisa, dados empíricos, um estudo aprofundado sobre o assunto?
- Não entendo essa sua implicância com meus comentários. Porquê se ofende tanto?
- Não venha me "ensinar" sobre regras de escrita de textos, a menos que eu peça ou que você sinta que seja para fins construtivos. Simplesmente ofender não vai adiantar nada pra você, e muito menos para mim.
Quanto ao autor do artigo, peço desculpas por qualquer inconveniente.

[12] Comentário enviado por caiquemd em 13/07/2007 - 20:02h

Valeu é muito util isso

[13] Comentário enviado por pascual em 14/07/2007 - 17:06h

É a primeira vez que participo. Não sei se posso fazer um comentário. Mas só um aparte em relação a discussão. Não acredito que o mais importante aqui seja a questão da moralidade. Penso que o artigo é interessante e isto basta. Cada indivíduo tem que ter o bom senso de utilizá-lo ou não. Acredito que o sentido da comunidade é apresentar possibilidades. obrigado.

[14] Comentário enviado por Pryderi em 17/09/2007 - 15:10h

Não importa se é um trecho ou a obra toda. Ele é protegido por leis de direito autoral. O autor pode dar permissão de copiar parcial ou integralmente sua obra... ou não. Prestem atenção a muitos livros didáticos deixando claro que é vedado a reprodução total ou parcial do conteúdo.

E dizer que se pode tirar xerox de peq. partes de um livro, mostra que está enganado. Mas, como as bibliotecas das faculdades ganham com isso, eles fazem vista grossa.

É proibido, pronto e acabou-se. Eu não gostaria que um trabalho meu rolasse por aí, com indicação ou não. Dar indicação não põe comida na mesa lá de casa.

[15] Comentário enviado por andreuebe em 13/11/2007 - 10:17h

Fico pensando como é interessante a premissa capitalista: Abre-se mão de um espaço solidário, cooperativo, onde todos poderiam estar se ajudando, em nome de vantagens pessoais.

Vivemos mesmo num mundinho e creio que, como civilização, vamos ainda "pastar" muito antes de compreendermos que cooperar é melhor que competir.

Na Era do Neanderthal a força bruta fazia o diferencial
Na Era Feudal a posse de terras fazia o diferencial
Na Era do Mercantilismo o capital fazia o diferencial
Na Era Industrial a posse dos Meios de Produção fazia o diferencial
Na Era da Informação a posse da informação ainda faz o diferencial
Na Era do Conhecimento o Networking pessoal começa a fazer a diferença
Na Era da Cooperação o espírito colaborativo fará a diferença.

Realmente... Ainda temos muito o que caminhar...

[16] Comentário enviado por andreuebe em 28/11/2007 - 17:41h

Acvsilva e Pryderi

Pesquisei sobre o assunto e, inclusive, saiu uma materia no jornal Valor Economico desta semana (falando um assunto correlato que é a questão do direito de cópia com a implantação da TV digital) explicando que:

"(...) cópia de parte de conteúdo midiático* para fins de uso pessoal é autorizada pela lei de direitos autorais brasileira".

Logo, amigos, nenhuma regra está sendo quebrada.

Atc.

Andre Uebe

______________

* Jornais, revistas, livros, filmmes, documentarios, etc.

[17] Comentário enviado por juvenalcaneca em 08/02/2008 - 15:00h

Com o devido respeito pela opinião anti-pirataria (que concordo), seria inviável contactar todos os autores de todos os PDFs, aguardar resposta etc. Preciso fazer dezenas de anotações ao longo de um texto, além de copiar e colar trechos inteiros para o banco de dados, além disso prefiro trabalhar com uma formatação padronizada que facilite o trabalho, criar marcações, links, índices etc.

E a preocupação excessiva com o tema não deve virar paranóia, mesmo porque há 20 anos as bibliotecas tiravam, sim, xerox de livros inteiros, para atendimento de pesquisadores de outras bibliotecas, pois já havia redes de bibliotecas para isso. Hoje a internet (desenvolvida em universidades) veio facilitar o acesso à informação, e não podemos permitir que a paranóia de grandes corporações, como Micro$oft e empresas globais de multimídias invadam o espaço acadêmico e invalidem o estudo, a pesquisa, o fluxo de informações e conhecimento.

Vejam que aqui o debate ético e legal está ocupando o espaço que era técnico. E por falar nisso...

No primeiro teste de abrir PDF com o Gimp, quase tudo ok... Mas não passa da primeira página. É isso mesmo, ou alguma coisa está errada?

Att.

Juvenal Caneca

[18] Comentário enviado por andreuebe em 10/02/2008 - 17:41h

Juvenal

Valeu pelos comentários.

Acho que a pirataria só existe pela falta de uma prestação de serviço decente. Veja:

Por qual motivo não inventaram ainda uma videoteca virtual a qual você loca um filma a R$ 1,80 (tem que ser barato mesmo pois não tem custo de material, de logistica, ...), assiste e depois este é descartado. Seria muito mais comodo que ir a uma locadora.

E falando a verdade. É paranoia mesmo! Lembro que na epoca das lojas que vendiam LPs, tinha até um serviço de você podia fazer um "pout porri" de musicas de LPs a serem gravadas em K7 e todos ganhavam dinheiro e ninguem perturbava com este negocio de pirataria.

Quanto a abrir o PDF no GIMP. Você tem que informar a página do PDF a qual deseja editar, se não, ele abre a primeira mesmo.

Veja no 1o screenshot de:

http://www.vivaolinux.com.br/artigos/verArtigo.php?codigo=6841&pagina=2

que em "Páginas" você pode fazer isto.

Valeu!

Abs

Andre


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts