Detonando robots!

A muito tempo tempo se fala dos "Google hacks", mas o que não é divulgado é como evitar que o Google e outros sistemas de busca disponibilizem informações e/ou arquivos que não sejam interessantes para seu site.

removido

Por Perfil removido em 28/03/2005

Hits: 27.119 Categoria: Javascript Subcategoria: Miscelânea

Parte 2: Bloqueando robots

1° - Firewall

Pelos logs você pode bloquear direto no firewall.

Lista com agentes/IP:

http://www.searchengineworld.com/spiders/spider_ips.htm

2° - Por agente

Os robots usam agentes com nomes específicos, assim pode criar-se uma regra para bloqueá-los.

a) Via ".htaccess":

SetEnvIfNoCase User-Agent "^EmailSiphon" bot
SetEnvIfNoCase User-Agent "^EmailWolf" bot
SetEnvIfNoCase User-Agent "^ExtractorPro" bot
SetEnvIfNoCase User-Agent "^CherryPicker" bot
SetEnvIfNoCase User-Agent "^NICErsPRO" bot
SetEnvIfNoCase User-Agent "^Teleport" bot
SetEnvIfNoCase User-Agent "^EmailCollector" bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bot
</Limit>

Lista de agentes, várias aplicações:

http://www.pgts.com.au/pgtsj/pgtsj0208c.html

b) Via robots.txt:
Você pode criar uma arquivo chamado "robots.txt" no diretório raiz do seu site. Esse arquivo é usado para bloquear agentes em um diretório único.

Bloqueando acesso a todo site:

# vim /robots.txt

User-agent: *
Disallow: /

Bloqueando um agente específico:

# vim /robots.txt

User-agent: webcrawler
Disallow:

Bloqueando Google Images:

# vim /robots.txt

# Robot do Goolge images
User-Agent: Googlebot-Image
Disallow: /

Mais informações sobre o Google-Bot:

http://www.google.com.br/intl/pt-BR/remove.html

Alguns diretórios interessantes:

# vim /robots.txt

User-agent: *
Disallow: /cgi-bin/
Disallow: /_borders/
Disallow: /_derived/
Disallow: /_fpclass/
Disallow: /_overlay/
Disallow: /_private/
Disallow: /_themes/
Disallow: /_vti_bin/
Disallow: /_vti_cnf/
Disallow: /_vti_log/
Disallow: /_vti_map/
Disallow: /_vti_pvt/
Disallow: /_vti_txt/

Exemplos de robots.txt:

3° - Bloqueando por META tags

É possível utilizar as meta tags para dizer ao Robot para não indexar ou seguir os links em uma de página. Para isso adicione as tags abaixo no cabeçalho das páginas que quiser bloquear. É claro que esse método só funciona para Robots "legais" e as tags precisam ser adicionadas em cada página que quiser bloquear.

Entre as tags <head></head> insira:

Todos Robots:

Para não arquivar sua página(cache):

Para o Google:

Para não aparecer a keyword em negrito na busca:

Cache do Google:

Links

Páginas do artigo

   1. O que é?
   2. Bloqueando robots
   3. Considerações finais

Outros artigos deste autor

Ingressando estações de trabalho Ubuntu no AD com Closed In Directory

AFT : Tecnologia para Formatação Avançada - Conceitos básicos

Netbook Positivo Mobo White 1020 com Mandriva

Instalando o RealPlayer 10 no Linux

PuTTY - Release 0.66 - Parte II

Leitura recomendada

Máquina Enigma e encriptação em XOR

RSS - O antes e o depois já nas bancas!

Instalação e configuração do LMS Moodle no Linux

IBM apresenta Maqetta, uma contribuição open source para HTML5

Entenda o XML - Parte 3

Comentários

Muito Bom!

Muito legal seu artigo, trouxe a luz uma fissura na segurança pessoal desconhecida por muitos!

[]'s

#1 Comentário enviado por null_terminated em 29/03/2005 - 07:48h

Muito Bom!

Muito legal seu artigo, trouxe a luz uma fissura na segurança pessoal desconhecida por muitos!

[]'s

Excelente artigo.. este mês eu iria atras dele. Acho ate legal o VOL usar na parte sobre nos. O nosso perfil!

#2 Comentário enviado por ygorth em 29/03/2005 - 09:26h

Excelente artigo.. este mês eu iria atras dele. Acho ate legal o VOL usar na parte sobre nos. O nosso perfil!

Isso mostra como somos vuneraveis até em páginas de internet.

Esse artigo é bom porque no meu caso eu vou poder proteger a página da minha empresa na internet e que em algum lugares há documentos sigilosos.

#3 Comentário enviado por mrspy em 29/03/2005 - 09:42h

Isso mostra como somos vuneraveis até em páginas de internet.

Esse artigo é bom porque no meu caso eu vou poder proteger a página da minha empresa na internet e que em algum lugares há documentos sigilosos.

Estava ontem mesmo pesquisando sobre isto... Caiu do céu...
Parabéns pelo artigo...

#4 Comentário enviado por Grobsch em 29/03/2005 - 12:02h

Estava ontem mesmo pesquisando sobre isto... Caiu do céu...
Parabéns pelo artigo...

Ótimo, excelente :)

#5 Comentário enviado por neriberto em 29/03/2005 - 13:13h

Ótimo, excelente :)

 
 Foi um dos melhores artigos que já li sobre o assunto e pode ser usado como guia de consulta rápido.

#6 Comentário enviado por leysen em 29/03/2005 - 16:58h

Foi um dos melhores artigos que já li sobre o assunto e pode ser usado como guia de consulta rápido.

Ótimo artigo, parabéns.

#7 Comentário enviado por agk em 29/03/2005 - 16:58h

Ótimo artigo, parabéns.

Muito bom! parabéns!!!

#8 Comentário enviado por fabrizmat em 30/03/2005 - 16:16h

Muito bom! parabéns!!!

seu artigo é muito bom.

Como podemos criar um spider ?
Vc conhece algum spider free?

Obrigado

Valeu

#9 Comentário enviado por paulobarra em 30/03/2005 - 22:29h

seu artigo é muito bom.

Como podemos criar um spider ?
Vc conhece algum spider free?

Obrigado

Valeu

Parabens geralmente eu uso o google para testar falhas pois se o cara souber usar a busca avançada do google ele tem acesso total a conteudos restritos...

#10 Comentário enviado por Hernando em 03/05/2005 - 12:10h

Parabens geralmente eu uso o google para testar falhas pois se o cara souber usar a busca avançada do google ele tem acesso total a conteudos restritos...

Camaradas, em tempo de lembra-los: o arquivo robots.txt e as metatags sao lidos e utilizados pelo robot e nao pelo servidor, bem como a informacao do user-agent tb eh fornecida pelo robot. 

As configuracoes citadas no artigo funcionam bem para crawlers "bonzinhos", mas nao oferece seguranca alguma contra programas que enviam user-agent's falsos ou ignoram as instrucoes do robots.txt. A melhor politica de seguranca eh nao tornar documentos sigilosos publicamente acessiveis, exceto se forem devidamente protegidos por senha e preferencialmente servidos sobre https.

#11 Comentário enviado por _m4n14c_ em 01/06/2007 - 18:50h

Camaradas, em tempo de lembra-los: o arquivo robots.txt e as metatags sao lidos e utilizados pelo robot e nao pelo servidor, bem como a informacao do user-agent tb eh fornecida pelo robot.

As configuracoes citadas no artigo funcionam bem para crawlers "bonzinhos", mas nao oferece seguranca alguma contra programas que enviam user-agent's falsos ou ignoram as instrucoes do robots.txt. A melhor politica de seguranca eh nao tornar documentos sigilosos publicamente acessiveis, exceto se forem devidamente protegidos por senha e preferencialmente servidos sobre https.

Muito embora no momento eu pretenda exatamente o contrário, isto é, dar maior visibilidade às minhas páginas atuais, a dica é muito valiosa para proteger dados. Vou guardá-la para alguma necessidade futura.
Parabéns!

#12 Comentário enviado por Teixeira em 20/10/2007 - 20:20h

Muito embora no momento eu pretenda exatamente o contrário, isto é, dar maior visibilidade às minhas páginas atuais, a dica é muito valiosa para proteger dados. Vou guardá-la para alguma necessidade futura.
Parabéns!

Parabéns

#13 Comentário enviado por 123123 em 12/04/2012 - 11:33h

Parabéns