Capturando dados de uma determinada URL

1. Capturando dados de uma determinada URL

Renan de Assis
renandeassis

(usa XUbuntu)

Enviado em 16/05/2014 - 17:40h

Boa noite!

Eu possuo o código fonte abaixo. Serve para localizar URL's de um determinado domínio.



<?php
// $html = the html on the page
// $current_url = the full url that the html came from (only needed for $repath)
// $repath = converts ../ and / and // urls to full valid urls

function pageLinks($html, $current_url = "", $repath = false){
preg_match_all("/\<a.+?href=(\"|')(?!javascript:|#)(.+?)(\"|')/i", $html, $matches);
$links = array();
if(isset($matches[2])){
$links = $matches[2];
}
if($repath && count($links) > 0 && strlen($current_url) > 0){
$pathi = pathinfo($current_url);
$dir = $pathi["dirname"];
$base = parse_url($current_url);
$split_path = explode("/", $dir);
$url = "";
foreach($links as $k => $link){
if(preg_match("/^\.\./", $link)){
$total = substr_count($link, "../");
for($i = 0; $i < $total; $i++){
array_pop($split_path);
}
$url = implode("/", $split_path) . "/" . str_replace("../", "", $link);
}elseif(preg_match("/^\/\//", $link)){
$url = $base["scheme"] . ":" . $link;
}elseif(preg_match("/^\/|^.\//", $link)){
$url = $base["scheme"] . "://" . $base["host"] . $link;
}elseif(preg_match("/^[a-zA-Z0-9]/", $link)){
if(preg_match("/^http/", $link)){
$url = $link;
}else{
$url = $dir . "/" . $link;
}
}
$links[$k] = $url;
}
}
return $links;
}
header("content-type: text/plain");
$url = "http://189.38.89.46";
$html = file_get_contents($url);
// Gets links from the page:
print_r(pageLinks($html));
// Gets links from the page and formats them to a full valid url:
print_r(pageLinks($html, $url, true));

?>





Neste caso eu coloquei o IP 189.38.89.46 e ele me trouxe as seguintes informações:



Array
(
[0] => /busca/
[1] => http://www.twitter.com/midiaville
[2] => http://www.facebook.com/midiaville
[3] => https://plus.google.com/b/118444379296194920389/118444379296194920389/
[4] => i-cadastro/login.php
[5] => http://www.midiaville.com.br/busca/index.php
[6] => https://www.midiaville.com.br/redirect/banner/34/
[7] => http://www.midiaville.com.br/busca/index.php
[8] => https://www.midiaville.com.br/busca/fale_conosco.php
[9] => https://www.midiaville.com.br/busca/publicidade.php
[10] => https://www.midiaville.com.br/busca/cadastro.php
[11] => http://ads.midiaville.com.br/link/16615/
[12] => http://ads.midiaville.com.br/link/16615/
[13] => http://www.midiaville.com.br/busca/index.php
[14] => http://www.midiaville.com.br/busca/categorias.php
[15] => http://www.midiaville.com.br/busca/empregos.php
[16] => http://www.midiaville.com.br/busca/horario_onibus.php
[17] => http://www.midiaville.com.br/busca/cinema.php
[18] => http://www.midiaville.com.br/busca/previsao.php
[19] => http://www.midiaville.com.br/busca/mapas.php
[20] => http://www.midiaville.com.br/busca/consulta-cep.php
[21] => /busca/i-cadastro/login.php
[22] => http://www.classificadosjoinville.midiaville.com.br/
[23] => http://www.midiaville.com.br/busca/termo_de_uso.php
[24] => http://ads.midiaville.com.br/link/16615/
[25] => cadastro.php
[26] => http://www.classificadosjoinville.midiaville.com.br/anuncio/coletas-e-entregas-com-motoboys
[27] => http://www.classificadosjoinville.midiaville.com.br/anuncio/recepcionista
[28] => http://www.classificadosjoinville.midiaville.com.br/anuncio/geminado-semi-novo
[29] => http://www.classificadosjoinville.midiaville.com.br/anuncio/mesa-com-4-cadeiras-italia-nova
[30] => http://www.classificadosjoinville.midiaville.com.br/anuncio/diarista-elaine
[31] => http://www.classificadosjoinville.midiaville.com.br/adicionar-novo/
[32] => https://www.midiaville.com.br/redirect/banner/14/
[33] => https://www.midiaville.com.br/redirect/banner/14/
[34] => https://www.midiaville.com.br/redirect/banner/18/
[35] => https://www.midiaville.com.br/redirect/banner/18/
[36] => https://www.midiaville.com.br/redirect/banner/12/
[37] => https://www.midiaville.com.br/redirect/banner/12/
[38] => https://www.midiaville.com.br/redirect/banner/41/
[39] => https://www.midiaville.com.br/redirect/banner/41/
[40] => https://www.midiaville.com.br/redirect/banner/23/
[41] => https://www.midiaville.com.br/redirect/banner/23/
[42] => https://www.midiaville.com.br/redirect/banner/35/
[43] => https://www.midiaville.com.br/redirect/banner/35/
[44] => https://www.midiaville.com.br/redirect/banner/39/
[45] => https://www.midiaville.com.br/redirect/banner/39/
[46] => https://www.midiaville.com.br/redirect/banner/40/
[47] => https://www.midiaville.com.br/redirect/banner/40/
[48] => http://www.midiaville.com.br/busca/detalheempresa.php?id=18605
[49] => http://www.midiaville.com.br/busca/detalheempresa.php?id=38004
[50] => http://www.midiaville.com.br/busca/detalheempresa.php?id=17983
[51] => http://www.midiaville.com.br/busca/detalheempresa.php?id=13653
[52] => http://www.midiaville.com.br/busca/detalheempresa.php?id=5520
[53] => http://www.midiaville.com.br/busca/detalheempresa.php?id=18915
[54] => http://www.midiaville.com.br/busca/detalheempresa.php?id=37961
[55] => publicidade.php
[56] => publicidade.php
[57] => noticias.php?id=1147541
[58] => noticias.php?id=1147537
[59] => noticias.php?id=1147543
[60] => noticias.php?id=1147535
[61] => noticias.php?id=1147573
[62] => noticias.php?id=1147572
[63] => noticias.php?id=1147571
[64] => noticias.php?id=1147570
[65] => noticias.php?id=1147626
[66] => noticias.php?id=1147625
[67] => noticias.php?id=1147624
[68] => noticias.php?id=1147623
[69] => noticias.php?id=1147636
[70] => noticias.php?id=1147635
[71] => noticias.php?id=1147634
[72] => noticias.php?id=1147633
[73] => http://www.muellerjoinville.com.br/shopping/content/cinema/
[74] => http://www.joinvillegartenshopping.com.br/site/cinema.asp
[75] => http://www.midiaville.com.br/busca/index.php
[76] => https://www.midiaville.com.br/busca/fale_conosco.php
[77] => https://www.midiaville.com.br/busca/publicidade.php
[78] => http://www.classificadosjoinville.midiaville.com.br/
[79] => https://www.midiaville.com.br/busca/cadastro.php
[80] => http://www.midiaville.com.br/busca/i-cadastro.php
[81] => http://www.midiaville.com.br/busca/categorias.php
[82] => http://www.midiaville.com.br/busca/empregos.php
[83] => http://www.midiaville.com.br/busca/horario_onibus.php
[84] => http://www.midiaville.com.br/busca/cinema.php
[85] => http://www.midiaville.com.br/busca/previsao.php
[86] => http://www.midiaville.com.br/busca/mapas.php
[87] => http://www.midiaville.com.br/busca/publicidade.php
[88] => http://www.midiaville.com.br/site/
[89] => http://siteswordpress.midiaville.com.br/
[90] => http://www.midiaville.com.br/site/servicos/solucoes-em-e-commerce-magento/
[91] => http://www.twitter.com/midiaville
[92] => http://www.facebook.com/midiaville
[93] => https://plus.google.com/b/118444379296194920389/118444379296194920389/
[94] => https://www.midiaville.com.br/busca/ssl.php
[95] => http://www.midiaville.com.br/site/index.php
[96] => https://www.facebook.com/MidiaVille.Guia.Joinville
[97] => '>clique aqui</a> e atualize para sua segurança!
)
Array
(
[0] => http://189.38.89.46/busca/
[1] => http://www.twitter.com/midiaville
[2] => http://www.facebook.com/midiaville
[3] => https://plus.google.com/b/118444379296194920389/118444379296194920389/
[4] => http:/i-cadastro/login.php
[5] => http://www.midiaville.com.br/busca/index.php
[6] => https://www.midiaville.com.br/redirect/banner/34/
[7] => http://www.midiaville.com.br/busca/index.php
[8] => https://www.midiaville.com.br/busca/fale_conosco.php
[9] => https://www.midiaville.com.br/busca/publicidade.php
[10] => https://www.midiaville.com.br/busca/cadastro.php
[11] => http://ads.midiaville.com.br/link/16615/
[12] => http://ads.midiaville.com.br/link/16615/
[13] => http://www.midiaville.com.br/busca/index.php
[14] => http://www.midiaville.com.br/busca/categorias.php
[15] => http://www.midiaville.com.br/busca/empregos.php
[16] => http://www.midiaville.com.br/busca/horario_onibus.php
[17] => http://www.midiaville.com.br/busca/cinema.php
[18] => http://www.midiaville.com.br/busca/previsao.php
[19] => http://www.midiaville.com.br/busca/mapas.php
[20] => http://www.midiaville.com.br/busca/consulta-cep.php
[21] => http://189.38.89.46/busca/i-cadastro/login.php
[22] => http://www.classificadosjoinville.midiaville.com.br/
[23] => http://www.midiaville.com.br/busca/termo_de_uso.php
[24] => http://ads.midiaville.com.br/link/16615/
[25] => http:/cadastro.php
[26] => http://www.classificadosjoinville.midiaville.com.br/anuncio/coletas-e-entregas-com-motoboys
[27] => http://www.classificadosjoinville.midiaville.com.br/anuncio/recepcionista
[28] => http://www.classificadosjoinville.midiaville.com.br/anuncio/geminado-semi-novo
[29] => http://www.classificadosjoinville.midiaville.com.br/anuncio/mesa-com-4-cadeiras-italia-nova
[30] => http://www.classificadosjoinville.midiaville.com.br/anuncio/diarista-elaine
[31] => http://www.classificadosjoinville.midiaville.com.br/adicionar-novo/
[32] => https://www.midiaville.com.br/redirect/banner/14/
[33] => https://www.midiaville.com.br/redirect/banner/14/
[34] => https://www.midiaville.com.br/redirect/banner/18/
[35] => https://www.midiaville.com.br/redirect/banner/18/
[36] => https://www.midiaville.com.br/redirect/banner/12/
[37] => https://www.midiaville.com.br/redirect/banner/12/
[38] => https://www.midiaville.com.br/redirect/banner/41/
[39] => https://www.midiaville.com.br/redirect/banner/41/
[40] => https://www.midiaville.com.br/redirect/banner/23/
[41] => https://www.midiaville.com.br/redirect/banner/23/
[42] => https://www.midiaville.com.br/redirect/banner/35/
[43] => https://www.midiaville.com.br/redirect/banner/35/
[44] => https://www.midiaville.com.br/redirect/banner/39/
[45] => https://www.midiaville.com.br/redirect/banner/39/
[46] => https://www.midiaville.com.br/redirect/banner/40/
[47] => https://www.midiaville.com.br/redirect/banner/40/
[48] => http://www.midiaville.com.br/busca/detalheempresa.php?id=18605
[49] => http://www.midiaville.com.br/busca/detalheempresa.php?id=38004
[50] => http://www.midiaville.com.br/busca/detalheempresa.php?id=17983
[51] => http://www.midiaville.com.br/busca/detalheempresa.php?id=13653
[52] => http://www.midiaville.com.br/busca/detalheempresa.php?id=5520
[53] => http://www.midiaville.com.br/busca/detalheempresa.php?id=18915
[54] => http://www.midiaville.com.br/busca/detalheempresa.php?id=37961
[55] => http:/publicidade.php
[56] => http:/publicidade.php
[57] => http:/noticias.php?id=1147541
[58] => http:/noticias.php?id=1147537
[59] => http:/noticias.php?id=1147543
[60] => http:/noticias.php?id=1147535
[61] => http:/noticias.php?id=1147573
[62] => http:/noticias.php?id=1147572
[63] => http:/noticias.php?id=1147571
[64] => http:/noticias.php?id=1147570
[65] => http:/noticias.php?id=1147626
[66] => http:/noticias.php?id=1147625
[67] => http:/noticias.php?id=1147624
[68] => http:/noticias.php?id=1147623
[69] => http:/noticias.php?id=1147636
[70] => http:/noticias.php?id=1147635
[71] => http:/noticias.php?id=1147634
[72] => http:/noticias.php?id=1147633
[73] => http://www.muellerjoinville.com.br/shopping/content/cinema/
[74] => http://www.joinvillegartenshopping.com.br/site/cinema.asp
[75] => http://www.midiaville.com.br/busca/index.php
[76] => https://www.midiaville.com.br/busca/fale_conosco.php
[77] => https://www.midiaville.com.br/busca/publicidade.php
[78] => http://www.classificadosjoinville.midiaville.com.br/
[79] => https://www.midiaville.com.br/busca/cadastro.php
[80] => http://www.midiaville.com.br/busca/i-cadastro.php
[81] => http://www.midiaville.com.br/busca/categorias.php
[82] => http://www.midiaville.com.br/busca/empregos.php
[83] => http://www.midiaville.com.br/busca/horario_onibus.php
[84] => http://www.midiaville.com.br/busca/cinema.php
[85] => http://www.midiaville.com.br/busca/previsao.php
[86] => http://www.midiaville.com.br/busca/mapas.php
[87] => http://www.midiaville.com.br/busca/publicidade.php
[88] => http://www.midiaville.com.br/site/
[89] => http://siteswordpress.midiaville.com.br/
[90] => http://www.midiaville.com.br/site/servicos/solucoes-em-e-commerce-magento/
[91] => http://www.twitter.com/midiaville
[92] => http://www.facebook.com/midiaville
[93] => https://plus.google.com/b/118444379296194920389/118444379296194920389/
[94] => https://www.midiaville.com.br/busca/ssl.php
[95] => http://www.midiaville.com.br/site/index.php
[96] => https://www.facebook.com/MidiaVille.Guia.Joinville
[97] => https://www.facebook.com/MidiaVille.Guia.Joinville
)



A Minha dúvida é.... Como faço para que o resultado seja todos os www.empresa.com.br que estão cadastrados neste site?

É preciso que tenha um robô que localize em todas as URL's ?

Agradeço a coloboração é de grande importancia pra mim função.


Obrigado,
Renan!



  






Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts