Script que obtém informações disponibilizadas a bots pelos sites
Publicado por Renato Alencar (última atualização em 05/02/2014)
[ Hits: 5.953 ]
O script é uma mão na roda pra quem cria bots pra vasculhar sites, é com esse arquivo que não se permite mostrar algum arquivo que o admin do site não quer que apareça nas pesquisas (do Google, por exemplo). É também útil pra se aprender como usar o pacote httplib2.
O script é bem simples e funciona via linha de comando. Se você não tem o httplib2 instalado, você pode baixá-lo em: http://code.google.com/p/httplib2/
Uso:
$ ./getrobots.py <URL>
#!/usr/bin/python
# -*- coding: utf-8 -*-
# Baixa o arquivo robots.txt do site dado como parametro
#
# O arquivo robots.txt contem definições para bots que acessam o site
# é usado por exemplo pelo bot de pesquisa do Google.
# É necessario o pacote httplib2 para se conectar
import httplib2
import sys
# Faz a requisição HTTP e obtem o arquivo
def getRobot(site):
# TODO: Criar rotina de validação
client = httplib2.Http()
response = client.request('http://%s/robots.txt' % site)
# Retorna o objeto response
return response
def main():
if len(sys.argv) < 2:
raise Exception, "Use: %s <site>" % sys.argv[0]
r = getRobot(sys.argv[1])
if r[0]['status'] <> '200':
raise Exception, "CODE %s" % r[0]['status']
print r[1]
if __name__ == '__main__':
main()
Tradutor Inglês/Português utilizando MyMemory
Nenhum comentário foi encontrado.
Cirurgia para acelerar o openSUSE em HD externo via USB
Void Server como Domain Control
Modo Simples de Baixar e Usar o bash-completion
Monitorando o Preço do Bitcoin ou sua Cripto Favorita em Tempo Real com um Widget Flutuante
Opções secretas em tema do Cinnamon
Como mapear unidade de rede no Linux
Como quebrar senha usando john the ripper
Alguém já testou o novo COSMIC Desktop? O que achou? (5)
Alguém pode me indicar um designer freelancer? [RESOLVIDO] (2)
Por que passar nas disciplinas da faculdade é ruim e ser reprovado é b... (2)









