HDFS 基本介绍

目标：掌握什么是HDFS，HDFS的使用场景，组成部分。

· HDFS 是 Hadoop Distribute File System 的简称，意为：Hadoop 分布式文件系统。是 Hadoop 核心组件之一，作为最底层的分布式存储服务而存在。

分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景，它们为存储和处理超大规模数据提供所需的扩展能力。

HDFS 基本介绍

HDFS使用Master和Slave结构对集群进行管理。一般一个 HDFS 集群只有一个 Namenode 和一定数目的Datanode 组成。Namenode 是 HDFS 集群主节点，Datanode 是 HDFS 集群从节点，两种角色各司其职，共同协调完成分布式的文件存储服务。

HDFS 基本介绍

NameNode（Master）管理者 - 只负责管理，管理集群内各个节点。

SecondaryNameNode 辅助管理 – 只负责辅助NameNode管理工作。

DataNode(Slave) 工作者，是负责工作，周期向NameNode汇报，进行读写数据。

1）HDFS集群包括，NameNode和DataNode以及Secondary Namenode。

2）NameNode负责管理整个文件系统的元数据，以及每一个路径（文件）所对应的数据块信息。

3）DataNode 负责管理用户的文件数据块，每一个数据块都可以在多个datanode上存储多个副本。

4）Secondary NameNode用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。最主要作用是辅助namenode管理元数据信息

HDFS 基本介绍

HDFS分块存储

目标：掌握什么是分块存储，HDFS的分块存储策略

hdfs将所有的文件全部抽象成为block块来进行存储，不管文件大小，全部一视同仁都是以block块的统一大小和形式进行存储，方便我们的分布式文件系统对文件的管理

所有的文件都是以block块的方式存放在HDFS文件系统当中，在Hadoop1当中，文件的block块默认大小是64M，Hadoop2当中，文件的block块大小默认是128M，block块的大小可以通过hdfs-site.xml当中的配置文件进行指定

HDFS 基本介绍

一个文件100M，上传到HDFS占用几个快？

一个块128M，剩余的28M怎么办？

事实上，128只是个数字，数据超过128M，便进行切分，如果没有超过128M，就不用切分，有多少算多少，不足128M的也是一个快。这个快的大小就是100M，没有剩余28M这个概念。

抽象成数据块的好处

HDFS 基本介绍

块缓存

HDFS 基本介绍

HDFS副本机制

目标：掌握HDFS的数据备份机制（数据副本）

HDFS视硬件错误为常态，硬件服务器随时有可能发生故障。

为了容错，文件的所有 block 都会有副本。每个文件的 block 大小和副本系数都是可配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定，也可以在之后改变。

数据副本默认保存三个副本，我们可以更改副本数以提高数据的安全性

在hdfs-site.xml当中修改以下配置属性，即可更改文件的副本数

HDFS 基本介绍

低版本Hadoop副本节点选择

第一个副本在client所处的节点上。如果客户端在集群外，随机选一个。

第二个副本和第一个副本位于不相同机架的随机节点上。

第三个副本和第二个副本位于相同机架，节点随机。

HDFS 基本介绍

Hadoop2.7.2副本节点选择

第一个副本在client所处的节点上。如果客户端在集群外，随机选一个。

第二个副本和第一个副本位于相同机架，随机节点。

第三个副本位于不同机架，随机节点。

HDFS 基本介绍

名字空间（NameSpace）

目标：掌握什么是“名字空间”

HDFS 支持传统的层次型文件组织结构。用户或者应用程序可以创建目录，然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似：用户可以创建、删除、移动或重命名文件。

Namenode 负责维护文件系统的名字空间，任何对文件系统名字空间或属性的修改都将被Namenode 记录下来。

HDFS 会给客户端提供一个统一的目录树，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。

HDFS 基本介绍

Namenode 功能

目标：掌握NameNode有哪些主要的功能

我们把目录结构及文件分块位置信息叫做元数据。Namenode 负责维护整个hdfs文件系统的目录树结构，以及每一个文件所对应的 block 块信息（block 的id，及所在的datanode 服务器）。

HDFS 基本介绍

Namenode节点负责确定指定的文件块到具体的Datanode结点的映射关系。在客户端与数据节点之间共享数据。

HDFS 基本介绍

管理Datanode结点的状态报告，包括Datanode结点的健康状态报告和其所在结点上数据块状态报告，以便能够及时处理失效的数据结点。

HDFS 基本介绍

目标：掌握DataNode有哪些主要的功能

文件的各个 block 的具体存储管理由 datanode 节点承担。每一个 block 都可以在多个datanode 上。Datanode 需要定时向 Namenode 汇报自己持有的 block信息。存储多个副本（副本数量也可以通过参数设置 dfs.replication，默认是 3）。

HDFS 基本介绍

向Namenode结点报告状态。每个Datanode结点会周期性地向Namenode发送心跳信号和文件块状态报告。

心跳是每3秒一次，心跳返回结果带有namenode给该datanode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个datanode的心跳，则认为该节点不可用。

DataNode启动后向namenode注册，通过后，周期性（1小时）的向namenode上报所有的块信息。

HDFS 基本介绍

执行数据的流水线复制。当文件系统客户端从Namenode服务器进程获取到要进行复制的数据块列表后，完成文件块及其块副本的流水线复制。

一个数据块在datanode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。

HDFS 基本介绍

课后总结（背会）：

一个文件100M，上传到HDFS占用几个快？一个块128M，剩余的28M怎么办？

大数据为什么这么快?与传统数据相比有什么不同点?

a.传统数据纵向扩展,服务器数量不发生变化,配置越来越高,大数据横向扩展,配置不发生变化,服务器数量越来越多

b.传统的方式资源(cpu,内存,硬盘)集中,大数据的方式资源分布(相比前提是在同等配置的情况下)

c.传统的数据备份方式单份备份,大数据备份方式多份备份

d.传统的计算模型是移动数据到程序端,大数据计算模型是移动程序到数据段

e.相比之下大数据IO和网络的使用率都非常低,且多节点储存,多节点计算(众人拾柴火焰高)

如何验证集群是否可用?请说出两种以上方式

a.jps查看进程

b.namenode所在节点的IP+50070端口查看HDFS的web界面是否可用

c.在HDFS系统中创建一个文件夹或文件,若可以创建则表示集群可以

Secondary NameNode在HDFS中是什么作用，他能不能替代NameNode

Secondary NameNode主要作用是辅助namenode管理元数据信息，负责辅助NameNode管理工作。他不能替代NameNode

请说出HDFS副本的存放机制

a.第一份数据存放在客户端

b.第二份副本存放的位置与第一份数据在同一机架中,且不再同一节点,按照一定的规则找到一个节点存放

c.第三个副本存放的位置是与第一第二分数据副本不再同一机架上,且逻辑与存放副本1和副本2的逻辑距离最近的机架上,按照一定的规则找到一个节点存放

Namenode的作用

a.维护,管理文件系统的名字空间(元数据信息)

b.负责确定指定文件块到具体的DataNode节点的映射关系

c.维护管理DataNode上报的心跳信息

请说出你对HDFS文件系统容量的理解

将多个节点上的容量汇总到一起,拼接成一个大的文件系统,在一个节点上传数据,在其他的节点上都能够访问使用

hadoop的组成部分有什么?

a.HDFS:海量数据的存储

b.MapReduce:海量数据的计算

c.YARN:资源调度

DataNode的作用

负责工作，进行读写数据。周期向NameNode汇报。

负责管理用户的文件数据块(一个大的数据拆分成多个小的数据块)

请说出YARN的管理者,工作者

a.管理者:ResourceManager

b.工作者:NodeManager

HDFS分块存储

Namenode 功能

相关推荐