Hadoop入门第一天

今天很高兴能够开始这个专题,从此就要了解一下BigData领域的东西了,看到下面这个截图,

Hadoop入门第一天

开心的像个孩子一样,加油,跟着carry来一步一步探索大数据的神秘面纱吧。

1.从Hadoop框架讨论大数据生态

1.1 Hadoop到底是个什么东西

Hadoop入门第一天

1.2 Hadoop的三大发行版本

Hadoop三大发行版本:Apache、Cloudera、Hortonworks。

Apache版本最原始(最基础)的版本,对于入门学习最好。

Cloudera内部集成了很多大数据框架。对应产品CDH。

Hortonworks文档较好。对应产品HDP。

1.3Hadoop的优势

Hadoop入门第一天

1.4Hadoop的组成

Hadoop入门第一天

1.4 Hadoop的架构概述

  1NameNode(nn):存储文件的元数据,如文件明,文件目录结构,文件属性(生成时间,副本数,文件权限)

以及每个文件的块列表和块所在的DataNode等

2.DateNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和

3.Second NameNode(2nn):每隔一段时间对NameNode元数据备份

1.5 Yarn架构概述

Hadoop入门第一天

1.6MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce

1)Map阶段并行处理输入数据

2)Reduce阶段对Map结果进行汇总

Hadoop入门第一天

这些就是Hadoop的架构的简单介绍,Hadoop的搭建我这边就不再总结了(这其实是自学大数据最重要的一步,多少人想自学大数据都是走到这一步就放弃了),反正我是比着文档搭建好了,有需要的可以联系我,我给你文档。