Pular para o conteúdo

Script que obtém informações disponibilizadas a bots pelos sites

O script é uma mão na roda pra quem cria bots pra vasculhar sites, é com esse arquivo que não se permite mostrar algum arquivo que o admin do site não quer que apareça nas pesquisas (do Google, por exemplo). É também útil pra se aprender como usar o pacote httplib2.

O script é bem simples e funciona via linha de comando. Se você não tem o httplib2 instalado, você pode baixá-lo em: http://code.google.com/p/httplib2/

Uso:

$ ./getrobots.py <URL>
Renato Alencar RenatoAlencar73
Hits: 6.074 Categoria: Python Subcategoria: Internet
  • Download
  • Nova versão
  • Indicar
  • Denunciar

Descrição

O script é uma mão na roda pra quem cria bots pra vasculhar sites, é com esse arquivo que não se permite mostrar algum arquivo que o admin do site não quer que apareça nas pesquisas (do Google, por exemplo). É também útil pra se aprender como usar o pacote httplib2.

O script é bem simples e funciona via linha de comando. Se você não tem o httplib2 instalado, você pode baixá-lo em: http://code.google.com/p/httplib2/

Uso:

$ ./getrobots.py <URL>
Download getrobots.py Enviar nova versão

Esconder código-fonte

#!/usr/bin/python
# -*- coding: utf-8 -*-

# Baixa o arquivo robots.txt do site dado como parametro
#
# O arquivo robots.txt contem definições para bots que acessam o site
# é usado por exemplo pelo bot de pesquisa do Google.

# É necessario o pacote httplib2 para se conectar
import httplib2

import sys

# Faz a requisição HTTP e obtem o arquivo
def getRobot(site):
    # TODO: Criar rotina de validação

    client = httplib2.Http()
    response = client.request('http://%s/robots.txt' % site)

    # Retorna o objeto response
    return response

def main():
    if len(sys.argv) < 2:
        raise Exception, "Use: %s <site>" % sys.argv[0]

    r = getRobot(sys.argv[1])
    if r[0]['status'] <> '200':
        raise Exception, "CODE %s" % r[0]['status']
    print r[1]

if __name__ == '__main__':
    main()

Transforma código de barras

Python script para inundação de email

EVOSIGN - Assinatura aleatória no Evolution

Google scan com interface gráfica

Tradutor on-line em Python+GTK

Nenhum comentário foi encontrado.

Contribuir com comentário

Entre na sua conta para comentar.