Instalando e utilizando o Web Crawler OpenWebSpider

Este artigo ensina como instalar, configurar e utilizar o OpenWebSpider, um programa que tem por finalidade visitar sites, ler suas páginas e criar um índice de entradas para uma engine de busca.

[ Hits: 11.662 ]

Por: andre uebe em 30/09/2015


Utilização



A utilização do OpenWebSpider consiste na informação de uma URL a ser indexada, seguida pela busca de alguma expressão chave que se deseje localizar na mesma.

Vamos ver como deve ser este procedimento.

Na aba "Worker", informe a URL, conforme mostrado na figura a seguir:
Linux: Instalando e utilizando o Web Crawler OpenWebSpider
Clique em "GO".

Automaticamente a aba "Workers" se abrirá, mostrando o progresso dos trabalhos de indexação da URL, como mostrado:
Linux: Instalando e utilizando o Web Crawler OpenWebSpider
Uma vez finalizada a indexação, basta ir à aba "Search" e inserir a expressão de busca.

O OpenWebSpider trará todas as expressões correspondentes indexadas no DB, como mostrado a seguir:
Linux: Instalando e utilizando o Web Crawler OpenWebSpider

Considerações

Existem diversos softwares de Web Crawler para mineração de dados, sendo que o OpenWebSpider é uma das opções de código aberto.

Uma listagem de possíveis alternativas pode ser obtida aqui:
O uso destes mecanismos de busca indexada têm várias finalidades úteis como, por exemplo, criar um motor de busca que sirva para buscar citações plagiadas em trabalhos acadêmicos.

Lembre-se sempre de citar as fontes das informações ao fazer um trabalho acadêmico e, se for utilizar as mesmas palavras, chamada citação direta, coloque-as entre aspas, informando autor e página. Deste modo, evitarás a situação de plágio que é tomar como suas as palavras de alguém.

Em caso de citação indireta em um trabalho acadêmico, escreva COM SUAS PALAVRAS, o pensamento apreendido, fazendo a devida citação das fontes. Isto NÃO É plágio.

Abraço a todos.

Referências


Página anterior    

Páginas do artigo
   1. O que é o OpenWebSpider
   2. Utilização
Outros artigos deste autor

Editando trilhas de GPS no formato de arquivo GPX no Linux

Dukto - Transferindo arquivos entre computadores conectados à mesma rede

Instalando a impressora HP D1460 (série D1400) no Linux

Atualização do Firmware da BIOS do Dell Inspiron via Linux

Traduzindo legendas de maneira prática no Linux

Leitura recomendada

Brackets - Editor Open Source no Linux Mint e Ubuntu

Introdução à Solus Linux - Distro Independente

Childsplay - Suite completa de jogos para a educação infantil

SuSE Linux Enterprise Desktop 10 - O novo desktop Linux da Novell

eDonkey para Linux

  
Comentários

Nenhum comentário foi encontrado.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts