o que é hadoop big data

O que é Hadoop? Guia para iniciantes


Uma introdução ao Hadoop, uma estrutura que permite armazenar e processar grandes conjuntos de dados de maneira paralela e distribuída.

Este artigo é para dar uma breve introdução ao Hadoop para aqueles que sabem quase nada sobre essa tecnologia. O Big Data está na base de todas as mega tendências que estão acontecendo atualmente, do social à nuvem, dos dispositivos móveis aos jogos. Este artigo ajudará a construir a base para dar o próximo passo no aprendizado desta interessante tecnologia. Vamos começar:

O que é Big Data?

Desde o aprimoramento da tecnologia, os dados vêm crescendo a cada dia. Todo mundo possui gadgets hoje em dia. Todo dispositivo inteligente gera dados. Uma das principais fontes de dados é a mídia social. Nós, como somos animais sociais gostamos de compartilhar nossos pensamentos, sentimentos com os outros e as mídias sociais é a plataforma certa para a interação com outras pessoas ao redor do mundo.

A imagem a seguir mostra os dados gerados pelos usuários nas mídias sociais a cada 60 segundos. Dados foram gerados exponencialmente através dessas fontes.

Análise de dados de mídias sociais

A imagem a seguir mostra a previsão do Global Mobile Data Traffic da Cisco até 2020.

O termo Big Data é usado para uma coleção de conjuntos de dados tão grandes e complexos que se torna difícil processar usando ferramentas de gerenciamento de banco de dados disponíveis ou aplicativos tradicionais de processamento de dados.

Dependendo do setor e da organização, o big data engloba informações de várias fontes internas e externas, como transações, mídias sociais, conteúdo corporativo, sensores e dispositivos móveis etc. As empresas podem aproveitar dados para atender às necessidades de seus clientes, otimizar seus produtos, serviços e operações . Essa enorme quantidade de dados também pode ser usada pelas empresas para encontrar novas fontes de receita.

Como o Hadoop entrou em cena?

Essas enormes quantidades de dados gerados são difíceis de armazenar e processar usando o sistema de banco de dados tradicional. O sistema tradicional de gerenciamento de banco de dados é usado para armazenar e processar somente dados estruturados e relacionais. No entanto, no mundo de hoje há muitos dados não estruturados sendo gerados como imagens, arquivos de áudio, vídeos. Portanto, o sistema tradicional não conseguirá armazenar e processar esses tipos de dados. Uma solução eficaz para esse problema é o Hadoop.

O Hadoop é uma estrutura para processar Big Data. É uma estrutura que permite armazenar e processar grandes conjuntos de dados de maneira paralela e distribuída.

Existem dois componentes principais do Hadoop: HDFS e MapReduce.

O Hadoop Distributed File System (HDFS) cuida da parte de armazenamento da arquitetura do Hadoop.

O MapReduce é um modelo de processamento e uma estrutura de software para gravar aplicativos que podem ser executados no Hadoop. Esses programas do MapReduce são capazes de processar Big Data em paralelo em grandes clusters de nós computacionais.

O que é o HDFS e quais são seus principais componentes?

O HDFS armazena arquivos em vários nós em um cluster. O Hadoop segue a arquitetura Master-Slave e, portanto, o HDFS, seu componente principal, também segue a mesma arquitetura.

NameNode e DataNode são os principais componentes do HDFS.

NameNode

  • Mantém e gerencia DataNodes.
  • Metadados de registos, isto é, informação sobre blocos de dados, localização dos blocos armazenados, o tamanho dos arquivos, permissões, hierarquia, etc.
  • Recebe status e bloqueia relatório de todos os DataNodes.

DataNode

  • Daemons escravos. Envia sinais para o NameNode.
  • Armazena reais Armazena em blocos de dados.
  • Serve solicitações de leitura e gravação dos clientes.

Secondary NameNode

Este não é um backup NameNode. No entanto, é um serviço separado que mantém uma cópia dos logs de edição (edições) e da imagem do sistema de arquivos (fsimage) e os mescla para manter o tamanho do arquivo razoável.


Secondary NameNode e Checkpointing

  • MetaData de NameNode é gerenciado por dois arquivos: fsimage e edit logs.
  • Fsimage: Este arquivo contém todas as modificações que ocorrem no namespace do Hadoop ou no HDFS quando o NameNode é iniciado. É armazenado no disco local da máquina NameNode.
  • Edit logs: este arquivo contém a modificação mais recente. É um pequeno arquivo se comparado a fsimage. Sua armazenado na RAM da máquina NameNode.
  • Secondary NameNode executa a tarefa de Checkpointing.
  • Checkpointing é o processo de combinar edit logs com fsimage (edit logs + fsimage). Secondary NameNode cria uma cópia dos edit logs e fsimage do NameNode para criar fsimage final como mostrado na figura acima.
  • Checkpointing acontece periodicamente. (padrão 1 hora).

Por que o arquivo fsimage final é necessário no Secondary NameNode?

  • O fsimage final no Secondary NameNode permite um failover mais rápido, pois impede que os edit logs no NameNode fiquem muito grandes.
  • Um novo arquivo de log no NameNode contém todas as modificações / mudanças que acontecem durante o checkinpointing. É temporário.

Como os dados são armazenados no DataNodes?

Cada arquivo é armazenado no HDFS como blocos. O tamanho padrão de cada bloco é 128 MB no Apache Hadoop 2.x (64 MB no Apache Hadoop 1.x)

Depois que o arquivo é dividido em blocos de dados, como mostrado na figura abaixo, esses blocos de dados serão distribuídos em todos os nós de dados presentes no cluster do Hadoop.

Quais são as vantagens do HDFS?

  • Tolerância a falhas – Cada bloco de dados é replicado três vezes (isso é armazenado em três máquinas / DataNodes por padrão) no cluster Isso ajuda a proteger os dados contra falhas do DataNode (máquina).
  • Espaço – Basta adicionar mais datanodes e reequilibrar o tamanho se precisar de mais espaço em disco.
  • Escalabilidade – Ao contrário do sistema tradicional de banco de dados que não pode escalar para processar grandes conjuntos de dados. O HDFS é altamente escalável porque pode armazenar e distribuir conjuntos de dados muito grandes em vários nós que podem operar em paralelo.
  • Flexibilidade – Pode armazenar qualquer tipo de dados, seja estruturado, semi-estruturado ou não estruturado.
  • Custo-benefício – O HDFS possui armazenamento anexo direto e compartilha o custo da rede e dos computadores em que é executado com o MapReduce. É também um software de código aberto.

Aafreen Dabhoiwala é Estagiário de Cientista de Dados da Viasat Inc e estudante de pós-graduação em Ciências da Informação na Universidade do Colorado em Denver. Ele é um desenvolvedor de software voltado para um cientista de dados, com interesses em Machine Learning, IoT, Data Science e Big Data. Entre em contato com ele em [email protected]

Via KDnuggets

O que é Hadoop? Guia para iniciantes
5 (100%) 1 vote

Artigos relacionados

Ciência de dados para previsão do futuro A análise preditiva na ciência de dados baseia-se na análise de dados explicativos - O que, onde e como os dados para a ciência de dados. Na verdade, ...
O que é BIG DATA? Tipos, Características e Benefícios Para entender Big Data, primeiro precisamos saber o que é "data" ou dado, em inglês. Dicionário Oxford define 'dados' como: "As quantidades, caracter...
Aprendizagem Profunda ou Deep Learning: saiba mais sobre essa tecnologia Com enormes quantidades de poder computacional, as máquinas podem agora reconhecer objetos e traduzir a fala em tempo real. A inteligência artificial ...
O que é Data Science? Um guia para iniciantes em Ciência de Dados O mundo entrou na era do big data, a necessidade de armazenamento também cresceu. Foi o principal desafio e preocupação para as indústrias da empresa ...