07. HDFS主要流程之客户端读流程

主要流程如下图所示

07. HDFS主要流程之客户端读流程
8. HDFS主要流程之客户端读流程.png

分为如下几个步骤

  1. 打开HDFS文件

    HDFS客户端首先调用DistributedFileSystem.open()方法打开HDFS文件,这个方法在底层会调用DFSClient.open()方法,该方法会返回一个HdfsDataInputStream对象用于读取数据块。HdfsDataInputStream其实是一个DFSInputStream的装饰类,真正进行数据块读取操作的是DFSInputStream对象

  2. 从Namenode获取Datanode地址

    在DFSInputStream的构造方法中,会调用ClientProtocol.getLocatedBlocks()方法向Namenode获取该HDFS文件起始位置数据块的位置信息,Namenode返回的数据块的存储位置是按照与客户端的距离远近排序的,所以DFSInputStream可以选择一个最优的Datanode节点,然后与这个节点建立连接读取数据块

  3. 连接到Datanode读取数据块

    HDFS 客户端通过调用DFSInputStream.read()方法从这个最优的Datanode读取数据块,数据会议数据包(packet)为单位从Datanode通过流式接口传输到客户端。当达到一个数据块的末尾时,DFSInputStream就会再次调用ClientProtocol.getLocatedBlocks()获取文件下一个数据块的位置信息,并建立和这个新的数据块的最优节点之间的连接,然后HDFS客户端就可以继续读取数据块了。

  4. 关闭输入流

    当客户端成功完成文件读取后,会通过HdfsDataInputStream.close()方法关闭输入流。

客户端读取数据块时,很有可能存储这个数据块的Datanode出现异常,也就是无法读取数据。出现这种情况时,DFSInputStream会切换到另一个保存了这个数据块副本的Datanode,然后读取数据,同时,数据块的应答包中不仅包含了数据,还包含了校验值。HDFS客户端接收到数据应答包时,会对数据进行校验,如果出现校验错误,也就是Datanode上的这个数据块副本出现了损坏,HDFS客户端会通过ClientProtocol.reportBadBlocks()向Namenode汇报这个损坏的数据块副本,同时DFSInputStream会尝试从其他Datanode读取这个数据块。