Tutorial hadoop - Guia prático de um cluster com 3 computadores

ronyjah

Seu chefe disse que para aumentar o lucro da empresa é necessário criar um buscador de site (ex.: Google), ou seja, fazer uma pesquisa de forma eficiente em um arquivo com 10GB de tamanho por exemplo. Então conheça na prática como a ferramenta hadoop pode lhe ajudar.

[ Hits: 36.994 ]

Por: Ronaldo Borges em 21/12/2015 | Blog: https://www.facebook.com/ronyjah1

14 0

Denuncie Favoritos Indicar Impressora

Testando o cluster Hadoop

Neste tópico iremos demonstrar o funcionamento do cluster rodando uma aplicação de exemplo contida dentro do próprio pacote do hadoop chamada wordcount, que realiza simplesmente a contagem do número de palavras em um arquivo.

Para isso baixe o arquivo txt no link abaixo. Depois de descompactado ele possuíra 160 MB.

https://dumps.wikimedia.org/frwiki/20151202/frwiki-20151202-pages-articles-multistream-index.txt.bz2

Descompacte o arquivo bz2:

# bzip2 -d frwiki-20151202-pages-articles-multistream-index.txt.bz2

Renomeie o arquivo:

# mv frwiki-20151202-pages-articles-multistream-index.txt metadata.txt

A partir do diretório do hadoop-2.6.2 crie o diretório /input no sistema de arquivo dfs:

# bin/hadoop dfs -mkdir /input

Verifique se o diretório foi criado:

# bin/hadoop dfs -ls /input

Copie o arquivo metadata.txt para dentro do diretório /input:

# bin/hadoop dfs -copyFromLocal [CAMINHO DO ARQUIVO]/metadata.txt /input

Verifique se o arquivo foi copiado:

# bin/hadoop dfs -ls /input

Obs.: se você der ls ou tentar encontrar o diretório /input o sistema não irá localizá-lo. Sabe dizer por que isso ocorre?

Execute o comando para início da computação usando o cluster hadoop:

# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.2.jar wordcount /input/metadata.txt /output

Obs.: a partir deste momento o cluster estará realizando a contagem das palavras em um arquivo de 165MB. Executando a tarefa de forma paralela nos dois datanodes/nodemanager, aumentando assim a performance do sistema.

Se tudo ocorrer bem,(map 100% e reduce 100%) dois arquivos serão gerados no diretório /output visto somente pelo comando abaixo:

# bin/hadoop dfs -ls /output/

O resultado da contagem pode ser visto pelo comando:

# bin/hadoop dfs -cat /output/part-r-00000

Para este exemplo, caso queira reexecutar a aplicação, execute os comandos abaixo para limpar o diretório output:

# bin/hadoop dfs -rm /output/*
# bin/hadoop dfs -rmdir /output

Página anterior Próxima página

Páginas do artigo

   1. Descrição
   2. Configurando o ambiente nos computadores para receber o cluster hadoop
   3. Instalação e configuração do hadoop
   4. Iniciando o cluster hadoop
   5. Testando o cluster Hadoop
   6. Possíveis problemas

Outros artigos deste autor

Tutorial - Aplicação em C para transferência de arquivo usando socket TCP e Thread

Leitura recomendada

Acesso remoto entre GNU/Linux e Windows

Debian 9: como instalar TL-WN823N v2 (TP-LINK)

Interface de Rede Virtual no Debian

Trabalhando com subredes

Zabbix Server 2.0 no Ubuntu Server 12.04 - Instalação e configuração

Comentários

[1] Comentário enviado por Ed_slacker em 21/12/2015 - 13:55h

Para fins de estudo e conhecimento o cenário proposto pelo artigo é valido. Em ambiente real não. Só pelo overhead gerado pelas tecnologias citadas mais a infraestrutura, a aplicação desta solução não vale a pena. O ecossistema Haddop deve preferencialmente ser usado quando REALMENTE o desafio de coleta, processamento e análise de dados demandam artilharia pesada! Deixo como sugestão a leitura desta apresentação e veja como problemas similares com um volume muito mais brutal de dados foram analisados usando apenas LINUX! http://slides.com/ronie/fbp_2015#/

6 0