Hadoop笔记1 Hadoop架构

大数据

大数据（big data），是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。

4V:（Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度））

hadoop是apache开发的分布式系统基础架构。主要解决海量数据的存储和计算。广义上通常认为Hadoop是指Hadoop生态圈。

Hadoop笔记1 Hadoop架构

Hadoop笔记1 Hadoop架构
Hadoop2.x MapReduce只负责计算，Yarn负责资源调度。

HDFS:Hadoop分布式文件系统

NameNode:存储文件的元数据：文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode

DataNode:在本地文件系统存储文件块数据，以及块数据的校验和。

Secondary NameNode : 用来监控后台的HDFS的状态，每隔一段时间获取HDFS元数据的快照。（辅助NameNode)

Hadoop笔记1 Hadoop架构

Hadoop笔记1 Hadoop架构
MapReduce分为两个阶段，Map阶段和Reduce阶段

Map阶段负责并行的输入并处理数据
Reducer阶段负责将Map结果进行汇总。

Hadoop笔记1 Hadoop架构