大数据Hadoop,细数HDFS的那些概念(一)

 

HDFS是Hadoop中自带的分布式文件系统,并且是Hadoop工具的核心基础组件之一,今天,小编带大家对HDFS做一些深入的了解,对其内部概念进行阐述。

一、namenode和datanode

大数据Hadoop,细数HDFS的那些概念(一)

 

在HDFS中,每个服务器称之为一个节点。而所有的节点都分为两类,一个类是namenode,另一类是datanode。普通模式HDFS集群只有一个namenode和多个datanode,作用分别是管理和工作。

  • namenode

namenode是HDFS的管理节点,其维护着HDFS的命名空间。它会时刻监控着整个HDFS的树状系统以及系统内的所有目录和文件,并将它们以文件的形式保存在磁盘上。

namenode还维护着HDFS中每个数据块所在的节点的信息,其中位置信息不会永久保存。因为HDFS启动的时候每个datanode会向namenode汇报信息。

namenode是整个HDFS的外接接口,客户端在对HDFS进行交互请求之前都要先经过namenode验证。

  • datanod

datanode是HDFS的工作节点,每个datanode都维护着本节点的数据和剩余空间。datanode会随时向namenode汇报本节点的存储情况,这样在有客户端请求来临时,namenode才能对整个HDFS系统有清晰的把控。

大数据Hadoop,细数HDFS的那些概念(一)

 

namenode和datanode是整个HDFS中最核心的概念,但是如果namenode节点出现故障的话,整个HDFS文件系统就会失效,所有数据都会丢失。因此需要有一种止损方案来避免这种情况的出现,这个方案就是HDFS高可用。后续小编将持续介绍HDFS高可用以及其他HDFS概念,欢迎关注一起学习。