HDFS架构设计

HDFS架构设计此图中可以看到有以下组件构成(这个图是Apache官网的图片):

Namenode:是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。

Datanode:集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。

Block:是文件系统中的文件块,默认是128M,可以配置

Rack:机架

HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。从内部看,一个文件其实被分成一个或多个数据块,这些块存储在一组Datanode上。Namenode执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理文件系统客户端的读写请求。在Namenode的统一调度下进行数据块的创建、删除和复制。 Namenode和Datanode被设计成可以在普通的商用机器上运行。这些机器一般运行着GNU/Linux操作系统(OS)。HDFS采用Java语言开发,因此任何支持Java的机器都可以部署Namenode或Datanode。由于采用了可移植性极强的Java语言,使得HDFS可以部署到多种类型的机器上。

此外HDFS中还存在的组件:

journalNode:作用相当于NFS共享文件系统.Active Namenode往里写editlog数据,StandBy再从里面读取数据进行同步.

secondaryNameNode:帮助nameNode整理日志文件,生成快照文件。

因为只有在重新启动namenode时,才会将编辑日志应用到fsimage以获得文件系统的最新快照。但是namenode重启在生产集群中很少见,这意味着对于namenode长时间运行的集群来说,编辑日志可能会变得非常大。在这种情况下,我们将遇到以下问题。

  1. Editlog变得非常大,这将是管理它的一个挑战
  2. Namenode重启需要很长时间,因为需要合并很多更改
  3. 在崩溃的情况下,我们将丢失大量的元数据,因为fsimage是非常古老的

因此为了解决这些问题,secondaryNameNode应运而生。secondaryNameNode通过从Namenode接管将editlog与fsimage合并的责任,帮助克服了上述问题。

  1. 它定期从namenode获取编辑日志并应用于fsimage
  2. 一旦它有了新的fsimage,它就会复制回namenode
  3. Namenode将在下一次重新启动时使用这个fsimage,这将减少启动时间

数据复制

HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块,除了最后一个,所有的数据块都是同样大小的。为了容错,文件的所有数据块都会有副本。每个文件的数据块大小和副本系数都是可配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定,也可以在之后改变。HDFS中的文件都是一次性写入的,并且严格要求在任何时候只能有一个写入者。

Namenode全权管理数据块的复制,它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。

文件系统元数据的持久化

Namenode上保存着HDFS的名字空间。对于任何对文件系统元数据产生修改的操作,Namenode都会使用一种称为EditLog的事务日志记录下来。例如,在HDFS中创建一个文件,Namenode就会在Editlog中插入一条记录来表示;同样地,修改文件的副本系数也将往Editlog插入一条记录。Namenode在本地操作系统的文件系统中存储这个Editlog。整个文件系统的名字空间,包括数据块到文件的映射、文件的属性等,都存储在一个称为FsImage的文件中,这个文件也是放在Namenode所在的本地文件系统上。

Namenode在内存中保存着整个文件系统的名字空间和文件数据块映射(Blockmap)的映像。这个关键的元数据结构设计得很紧凑,因而一个有4G内存的Namenode足够支撑大量的文件和目录。当Namenode启动时,它从硬盘中读取Editlog和FsImage,将所有Editlog中的事务作用在内存中的FsImage上,并将这个新版本的FsImage从内存中保存到本地磁盘上,然后删除旧的Editlog,因为这个旧的Editlog的事务都已经作用在FsImage上了。这个过程称为一个检查点(checkpoint)。

Datanode将HDFS数据以文件的形式存储在本地的文件系统中,它并不知道有关HDFS文件的信息。它把每个HDFS数据块存储在本地文件系统的一个单独的文件中。Datanode并不在同一个目录创建所有的文件,实际上,它用试探的方法来确定每个目录的最佳文件数目,并且在适当的时候创建子目录。在同一个目录中创建所有的本地文件并不是最优的选择,这是因为本地文件系统可能无法高效地在单个目录中支持大量的文件。当一个Datanode启动时,它会扫描本地文件系统,产生一个这些本地文件对应的所有HDFS数据块的列表,然后作为报告发送到Namenode,这个报告就是块状态报告。