Tutorial hadoop - Guia prático de um cluster com 3 computadores

Seu chefe disse que para aumentar o lucro da empresa é necessário criar um buscador de site (ex.: Google), ou seja, fazer uma pesquisa de forma eficiente em um arquivo com 10GB de tamanho por exemplo. Então conheça na prática como a ferramenta hadoop pode lhe ajudar.

[ Hits: 36.317 ]

Por: Ronaldo Borges em 21/12/2015 | Blog: https://www.facebook.com/ronyjah1


Testando o cluster Hadoop



Neste tópico iremos demonstrar o funcionamento do cluster rodando uma aplicação de exemplo contida dentro do próprio pacote do hadoop chamada wordcount, que realiza simplesmente a contagem do número de palavras em um arquivo.

Para isso baixe o arquivo txt no link abaixo. Depois de descompactado ele possuíra 160 MB.
Descompacte o arquivo bz2:

# bzip2 -d frwiki-20151202-pages-articles-multistream-index.txt.bz2

Renomeie o arquivo:

# mv frwiki-20151202-pages-articles-multistream-index.txt metadata.txt

A partir do diretório do hadoop-2.6.2 crie o diretório /input no sistema de arquivo dfs:

# bin/hadoop dfs -mkdir /input

Verifique se o diretório foi criado:

# bin/hadoop dfs -ls /input

Copie o arquivo metadata.txt para dentro do diretório /input:

# bin/hadoop dfs -copyFromLocal [CAMINHO DO ARQUIVO]/metadata.txt /input

Verifique se o arquivo foi copiado:

# bin/hadoop dfs -ls /input

Obs.: se você der ls ou tentar encontrar o diretório /input o sistema não irá localizá-lo. Sabe dizer por que isso ocorre?

Execute o comando para início da computação usando o cluster hadoop:

# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.2.jar wordcount /input/metadata.txt /output

Obs.: a partir deste momento o cluster estará realizando a contagem das palavras em um arquivo de 165MB. Executando a tarefa de forma paralela nos dois datanodes/nodemanager, aumentando assim a performance do sistema.

Se tudo ocorrer bem,(map 100% e reduce 100%) dois arquivos serão gerados no diretório /output visto somente pelo comando abaixo:

# bin/hadoop dfs -ls /output/

O resultado da contagem pode ser visto pelo comando:

# bin/hadoop dfs -cat /output/part-r-00000

Para este exemplo, caso queira reexecutar a aplicação, execute os comandos abaixo para limpar o diretório output:

# bin/hadoop dfs -rm /output/*
# bin/hadoop dfs -rmdir /output


Página anterior     Próxima página

Páginas do artigo
   1. Descrição
   2. Configurando o ambiente nos computadores para receber o cluster hadoop
   3. Instalação e configuração do hadoop
   4. Iniciando o cluster hadoop
   5. Testando o cluster Hadoop
   6. Possíveis problemas
Outros artigos deste autor

Tutorial - Aplicação em C para transferência de arquivo usando socket TCP e Thread

Leitura recomendada

Nagios 3 + NagiosQL no Ubuntu Server 12.04

GNU/Linux no mundo corporativo

Docker - Containers em Linux

Obtendo TimeStamps da Blockchain com OpenTimestamps

Asterisk - Configuração de Voice Mail

  
Comentários
[1] Comentário enviado por Ed_slacker em 21/12/2015 - 13:55h

Para fins de estudo e conhecimento o cenário proposto pelo artigo é valido. Em ambiente real não. Só pelo overhead gerado pelas tecnologias citadas mais a infraestrutura, a aplicação desta solução não vale a pena. O ecossistema Haddop deve preferencialmente ser usado quando REALMENTE o desafio de coleta, processamento e análise de dados demandam artilharia pesada! Deixo como sugestão a leitura desta apresentação e veja como problemas similares com um volume muito mais brutal de dados foram analisados usando apenas LINUX! http://slides.com/ronie/fbp_2015#/

[2] Comentário enviado por Lwkas em 28/12/2015 - 17:35h

Muito bom!

[3] Comentário enviado por ronyjah em 28/12/2015 - 20:44h


[2] Comentário enviado por Lwkas em 28/12/2015 - 17:35h

Muito bom!


Fico agradecido por seu elogio, especialmente se este artigo for útil.

[4] Comentário enviado por HenriqueSantana em 17/05/2016 - 23:03h

Cara, parabéns. Ótimo post de material riquíssimo.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts