processar Lynx.pl

Publicado por Fábio Berbert de Paula 13/11/2002

[ Hits: 4.989 ]

Homepage: https://mestrefabio.com

Download processarLynx.zip




Script usado para extrair todos os links e imagens contidos no código HTML
de determinada URL. O navegador lynx é usado no auxílio da tarefa, ou melhor,
ele que processa os links, nós apenas formatamos a saída :)

  



Esconder código-fonte

#!/usr/bin/perl
# +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
# processarLynx.pl
#
# Script usado para extrair todos os links e imagens contidos 
# no código HTML de determinada URL. O navegador lynx é usado no
# auxílio da tarefa, ou melhor, ele que processa os links, nós
# apenas formatamos a saída :)
# 
# Requisitos:
#             * lynx
#
#
#
# Programado por Fábio Berbert de Paula <fabio@vivaolinux.com.br>
# Na web em: www.vivaolinux.com.br
#
# Rio de Janeiro, 24 de Julho de 2002
# ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

use strict;

my $lynx = '/usr/bin/lynx';

my $url = shift;
if (!$url) {
   print "Você precisa informar uma URL !\nUse: $0 endereco_da_pagina\n\n";
   exit(0);
}

my $addlink = 0;
my $out = `$lynx -dump -image_links $url`;

foreach my $linha (split(/\n/,$out)) {
  # se a linha iniciar com a string Referências ou References
  if ( $linha =~ /^(Referências|References)/ ) { $addlink = 1; }
  # pule para o próximo enquanto não chegarmos a parte que mostra os links
  if (!$addlink) { next; }
  # remova os espaços em branco do início da linha
  do {} while ($linha =~ s/^ //);
  # expressão regular para pegar apenas o link processado
  if ($linha !~ /^[0-9]{1,5}\. (.*)$/) { next; }
  print $1 . "\n";
}

Scripts recomendados

SMTP Mass Mail - Enviando e-mails em massa para vários endereços a partir de um servidor SMTP

Iniciando desenvolvimento web ágil com Perl (Mojolicious)

Redtube video download

Perl Check Port - Entenda melhor os sockets

API do Bing para traduzir textos


  

Comentários

Nenhum comentário foi encontrado.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts