Instalando e utilizando o Web Crawler OpenWebSpider
Este artigo ensina como instalar, configurar e utilizar o OpenWebSpider, um programa que tem por finalidade visitar sites, ler suas páginas e criar um índice de entradas para uma engine de busca.
Parte 2: Utilização
A utilização do OpenWebSpider consiste na informação de uma URL a ser indexada, seguida pela busca de alguma expressão chave que se deseje localizar na mesma.
Vamos ver como deve ser este procedimento.
Na aba "Worker", informe a URL, conforme mostrado na figura a seguir: Clique em "GO".
Automaticamente a aba "Workers" se abrirá, mostrando o progresso dos trabalhos de indexação da URL, como mostrado: Uma vez finalizada a indexação, basta ir à aba "Search" e inserir a expressão de busca.
O OpenWebSpider trará todas as expressões correspondentes indexadas no DB, como mostrado a seguir:
Uma listagem de possíveis alternativas pode ser obtida aqui:
O uso destes mecanismos de busca indexada têm várias finalidades úteis como, por exemplo, criar um motor de busca que sirva para buscar citações plagiadas em trabalhos acadêmicos.
Lembre-se sempre de citar as fontes das informações ao fazer um trabalho acadêmico e, se for utilizar as mesmas palavras, chamada citação direta, coloque-as entre aspas, informando autor e página. Deste modo, evitarás a situação de plágio que é tomar como suas as palavras de alguém.
Em caso de citação indireta em um trabalho acadêmico, escreva COM SUAS PALAVRAS, o pensamento apreendido, fazendo a devida citação das fontes. Isto NÃO É plágio.
Abraço a todos.
Vamos ver como deve ser este procedimento.
Na aba "Worker", informe a URL, conforme mostrado na figura a seguir: Clique em "GO".
Automaticamente a aba "Workers" se abrirá, mostrando o progresso dos trabalhos de indexação da URL, como mostrado: Uma vez finalizada a indexação, basta ir à aba "Search" e inserir a expressão de busca.
O OpenWebSpider trará todas as expressões correspondentes indexadas no DB, como mostrado a seguir:
Considerações
Existem diversos softwares de Web Crawler para mineração de dados, sendo que o OpenWebSpider é uma das opções de código aberto.Uma listagem de possíveis alternativas pode ser obtida aqui:
O uso destes mecanismos de busca indexada têm várias finalidades úteis como, por exemplo, criar um motor de busca que sirva para buscar citações plagiadas em trabalhos acadêmicos.
Lembre-se sempre de citar as fontes das informações ao fazer um trabalho acadêmico e, se for utilizar as mesmas palavras, chamada citação direta, coloque-as entre aspas, informando autor e página. Deste modo, evitarás a situação de plágio que é tomar como suas as palavras de alguém.
Em caso de citação indireta em um trabalho acadêmico, escreva COM SUAS PALAVRAS, o pensamento apreendido, fazendo a devida citação das fontes. Isto NÃO É plágio.
Abraço a todos.
Referências
- Qual a diferença entre robô, spider e crawler
- What is spider? - Definition from WhatIs.com
- Web crawler - Wikipédia, a enciclopédia livre
- OpenWebSpider
- Node.js - Wikipédia, a enciclopédia livre