A muito tempo tempo se fala dos "Google hacks", mas o que não é divulgado é como evitar que o Google e outros sistemas de busca disponibilizem informações e/ou arquivos que não sejam interessantes para seu site.
Atualmente, salvo raras exceções, não se fazem cadastro em
sites de busca, eles são automaticamente descobertos por
programas conhecidos como "Robots".
Quem trabalha com firewalls ou monitora os dados que são
requisitados em seu site já deve ter encontrado alguns deles
e pode não tê-los reconhecido. Além disso nem sempre é vantagem
ter seu conteúdo indexado por um buscador, pois informações
confidencias podem ser divulgadas, scripts vulneráveis
encontrados, entre outros tantos problemas.
Considerações iniciais
Robots: Robôs de busca ou "Robots" são programas que
varem sites e automaticamente disponibilizam todo
conteúdo/arquivos que for encontrado e que for "permitido"
listar. Exemplos: Google-Bot, AllTheWeb.
Podem ser conhecidos também como "Spiders", "Web Crawlers",
"Worms" ou "Ants".
Robots podem ser usados para coletar e-mails (Spiders) e
outras informações ou simplesmente para servir a um search
engine.
Buscador (search engine): Esse é o indexador do robô de
busca. Ele disponibiliza o conteúdo conforme uma string solicitada.
Exemplo: Google.
Agentes
Agentes autônomos - ( Autonomous agents ): São programas que circulam entre sites e tomam decisões do que fazer sozinhos, isso só é possível em servidores especiais, não são muito comuns.
Agentes Inteligentes - ( Intelligent agents): Utilizados para auxiliar os usuários a tomarem decisões, propagandas de contextos etc.
Agente de Usuário - ( User-agent ): É o agente utilizado por programas que realizam tarefas para um usuário, como IE, NS, Firefox, Outlook. Exemplo: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0), esse é o user-agent do IE 6 com Windows 2000.
[10] Comentário enviado por Hernando em 03/05/2005 - 12:10h
Parabens geralmente eu uso o google para testar falhas pois se o cara souber usar a busca avançada do google ele tem acesso total a conteudos restritos...
[11] Comentário enviado por _m4n14c_ em 01/06/2007 - 18:50h
Camaradas, em tempo de lembra-los: o arquivo robots.txt e as metatags sao lidos e utilizados pelo robot e nao pelo servidor, bem como a informacao do user-agent tb eh fornecida pelo robot.
As configuracoes citadas no artigo funcionam bem para crawlers "bonzinhos", mas nao oferece seguranca alguma contra programas que enviam user-agent's falsos ou ignoram as instrucoes do robots.txt. A melhor politica de seguranca eh nao tornar documentos sigilosos publicamente acessiveis, exceto se forem devidamente protegidos por senha e preferencialmente servidos sobre https.
[12] Comentário enviado por Teixeira em 20/10/2007 - 20:20h
Muito embora no momento eu pretenda exatamente o contrário, isto é, dar maior visibilidade às minhas páginas atuais, a dica é muito valiosa para proteger dados. Vou guardá-la para alguma necessidade futura.
Parabéns!