Script que obtém informações disponibilizadas a bots pelos sites
Publicado por Renato Alencar (última atualização em 05/02/2014)
[ Hits: 5.632 ]
O script é uma mão na roda pra quem cria bots pra vasculhar sites, é com esse arquivo que não se permite mostrar algum arquivo que o admin do site não quer que apareça nas pesquisas (do Google, por exemplo). É também útil pra se aprender como usar o pacote httplib2.
O script é bem simples e funciona via linha de comando. Se você não tem o httplib2 instalado, você pode baixá-lo em: http://code.google.com/p/httplib2/
Uso:
$ ./getrobots.py <URL>
#!/usr/bin/python # -*- coding: utf-8 -*- # Baixa o arquivo robots.txt do site dado como parametro # # O arquivo robots.txt contem definições para bots que acessam o site # é usado por exemplo pelo bot de pesquisa do Google. # É necessario o pacote httplib2 para se conectar import httplib2 import sys # Faz a requisição HTTP e obtem o arquivo def getRobot(site): # TODO: Criar rotina de validação client = httplib2.Http() response = client.request('http://%s/robots.txt' % site) # Retorna o objeto response return response def main(): if len(sys.argv) < 2: raise Exception, "Use: %s <site>" % sys.argv[0] r = getRobot(sys.argv[1]) if r[0]['status'] <> '200': raise Exception, "CODE %s" % r[0]['status'] print r[1] if __name__ == '__main__': main()
Preço do Dólar, Bitcoin e Euro em Python
Downloader modo texto - Python 3
Tradutor on-line em Python+GTK
Nenhum comentário foi encontrado.
Compartilhando a tela do Computador no Celular via Deskreen
Como Configurar um Túnel SSH Reverso para Acessar Sua Máquina Local a Partir de uma Máquina Remota
Configuração para desligamento automatizado de Computadores em um Ambiente Comercial
Como renomear arquivos de letras maiúsculas para minúsculas
Imprimindo no formato livreto no Linux
Vim - incrementando números em substituição
Efeito "livro" em arquivos PDF
Como resolver o erro no CUPS: Unable to get list of printer drivers
Melhorando a precisão de valores flutuantes em python[AJUDA] (5)
Instalação Uefi com o instalador clássico do Mageia (1)
[Python] Automação de scan de vulnerabilidades
[Python] Script para analise de superficie de ataque
[Shell Script] Novo script para redimensionar, rotacionar, converter e espelhar arquivos de imagem
[Shell Script] Iniciador de DOOM (DSDA-DOOM, Doom Retro ou Woof!)
[Shell Script] Script para adicionar bordas às imagens de uma pasta