只要你是天鹅蛋，就是生在养鸡场里也没有什么关系。——《安徒生童话》

1、概述

1.1 设计思想

分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析；

1.2 在大数据系统中作用

为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务

重点概念：文件切块，副本存放，元数据

1.3 HDFS的概念和特性

1.3.1 概念

(1)首先，它是一个文件系统，用于存储文件，通过统一的命名空间——目录树来定位文件;

(2)它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色；

1.3.2 重要特性

(1)HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M;

(2)HDFS文件系统会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data;

(3)目录结构及文件分块信息(元数据)的管理由namenode节点承担
——namenode是HDFS集群主节点，负责维护整个hdfs文件系统的目录树，以及每一个路径（文件）所对应的block块信息（block的id，及所在的datanode服务器）;

(4)文件的各个block的存储管理由datanode节点承担
—- datanode是HDFS集群从节点，每一个block都可以在多个datanode上存储多个副本（副本数量也可以通过参数设置dfs.replication）;

(5)HDFS是设计成适应一次写入，多次读出的场景，且不支持文件的修改;

(6) 注意：适合用来做数据分析，并不适合用来做网盘应用，因为，不便修改，延迟大，网络开销大，成本太高。

2、HDFS工作机制

2.1 概述

HDFS集群分为两大角色：NameNode、DataNode (Secondary Namenode)；
NameNode负责管理整个文件系统的元数据；
DataNode 负责管理用户的文件数据块；
文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上；
每一个文件块可以有多个副本，并存放在不同的datanode上；
Datanode会定期向Namenode汇报自身所保存的文件block信息，而namenode则会负责保持文件的副本数量；
HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是通过向namenode申请来进行；

2.2 HDFS写数据流程

2.2.1 概述过程

客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本。

2.2.2 详细过程

HDFS的工作机制

1、客户端跟namenode通信请求上传文件,namenode检查目标文件是否已存在，父目录是否存在；
2、namenode返回是否可以上传；
3、client请求第一个 block该传输到哪些datanode服务器上；
4、namenode返回3个datanode服务器dn1, dn3, dn4;
5、client请求3台dn中的一台dn1上传数据（本质上是一个RPC调用，建立pipeline, dn1收到请求会继续调用dn3，然后dn3调用dn4，将整个pipeline建立完成;
6、将整个pipeline建立完成，逐级应答返回客户端;
7、client开始往dn1上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet(64k)为单位传输，以chunk（512byte）为单位进行校验，dn1收到一个packet就会传给dn3，dn3传给dn4；dn1每传一个packet会放入一个应答队列等待应答。
8、当一个block上传成功，就算成功，namenode会做异步的同步，每传一个block都会向namenode请求。当一个block传输完成之后，client再次请求namenode上传第二个block的服务器。

2.3 HDFS读数据流程

2.3.1 概述过程

客户端将要读取的文件路径发送给namenode，namenode获取文件的元信息（主要是block的存放位置信息）返回给客户端，客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件。

2.3.2 详细过程

HDFS的工作机制

1、客户端向namenode请求下载文件；
2、namenode查询元数据，找到文件块所在的datanode服务器，返回文件的元数据；
3、挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流；
4、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）
5、客户端以packet为单位接收，先在本地缓存，然后写入目标文件。

3、namenode工作机制

3.1 namenode职责

（1）负责客户端请求的响应；
（2）元数据的管理（查询，修改）。

3.2 元数据管理

namenode对数据的管理采用了三种存储形式：
内存元数据(NameSystem)
磁盘元数据镜像文件
数据操作日志文件（可通过日志运算出元数据）

3.2.1 元数据存储机制

A、内存中有一份完整的元数据(内存meta data)
B、磁盘有一个“准完整”的元数据镜像（fsimage）文件(在namenode的工作目录中)
C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志（edits文件）注：当客户端对hdfs中的文件进行新增或者修改操作，操作记录首先被记入edits日志文件中，当客户端操作成功后，相应的元数据会更新到内存meta.data中

3.2.2 元数据手动查看

可以通过hdfs的一个工具来查看edits中的信息
bin/hdfs oev -i edits -o edits.xml
bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml

3.2.3 元数据的checkpoint

每隔一段时间，会由secondary namenode将namenode上积累的所有edits和一个最新的fsimage下载到本地，并加载到内存进行merge（这个过程称为checkpoint）。
HDFS的工作机制
1、更新内存metadata元数据；
2、记录更新的操作日志；
3、namenode滚动在在写的日志文件；
4、将日志文件和元数据镜像fsimage下载到secondary namenode；
5、secondary namenode将元数据镜像fsimage加载到内存，然后执行日志文件；
6、执行完成后dump到本地；
7、将新的元数据镜像fsimage.checkpoint上传到namenode;
8、将fsimage.checkpoint重命名成fsimage;

checkpoint的触发条件：
（1）距离上次checkpoint的时间间隔 >= dfs.namenode.checkpoint.period；（2）Edits中的事务条数达到{dfs.namenode.checkpoint.txns}限制；
这两个条件任何一个被满足了，就触发一次检查点创建。

注意：namenode和secondary namenode的工作目录存储结构完全相同，所以，当namenode故障退出需要重新恢复时，可以从secondary namenode的工作目录中将fsimage拷贝到namenode的工作目录，以恢复namenode的元数据。

4、datanode的工作机制

4.1 dataname职责

存储管理用户的文件块数据
定期向namenode汇报自身所持有的block信息（通过心跳信息上报）
（这点很重要，因为，当集群中发生某些block副本失效时，集群如何恢复block初始副本数量的问题）

4.2 datanode掉线判断时限参数

datanode进程死亡或者网络故障造成datanode无法与namenode通信，namenode不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout，则超时时长的计算公式为：
timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval。
而默认的heartbeat.recheck.interval 大小为5分钟，dfs.heartbeat.interval默认为3秒。
需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒，dfs.heartbeat.interval的单位为秒。所以，举个例子，如果heartbeat.recheck.interval设置为5000（毫秒），dfs.heartbeat.interval设置为3（秒，默认），则总的超时时间为40秒。

5、总结（百度百科）

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
HDFS有着高容错性（fault-tolerant）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以实现流的形式访问（streaming access）文件系统中的数据。

还需要探讨的问题，HDFS的高容错性？

HDFS的工作机制

1、概述

1.1 设计思想

1.2 在大数据系统中作用

1.3 HDFS的概念和特性

1.3.1 概念

1.3.2 重要特性

2、HDFS工作机制

2.1 概述

2.2 HDFS写数据流程

2.2.1 概述过程

2.2.2 详细过程

2.3 HDFS读数据流程

2.3.1 概述过程

2.3.2 详细过程

3、namenode工作机制

3.1 namenode职责

3.2 元数据管理

3.2.1 元数据存储机制

3.2.2 元数据手动查看

3.2.3 元数据的checkpoint

4、datanode的工作机制

4.1 dataname职责

4.2 datanode掉线判断时限参数

5、总结（百度百科）

相关推荐