客户端读写数据到HDFS的流程

客户端写数据到HDFS中的流程

客户端读写数据到HDFS的流程
(1) 客户端发出写数据请求,hadoop fs –put ./localFile.txt /hdfsFile.txt 本地的localFile.txt文件大小是170MB,而HDFS默认的Block大小是128MB,因此这个文件将会被分成两个Block
(2) NameNode首先检查这个文件在HDFS中是否存在,如果存在则报错,如果不存在返回OK
(3) 请求写BLOCK1,而hdfsFile.txt有两个Block,且3个副本,那么总共是6个Block
(4) NameNode告诉Client,Block1写到哪几个DataNode中去,例如:返回DataNode1、DataNode2、DataNode3
(5) 与DataNode1建立数据传输连接
(6) DataNode1与DataNode2建立数据传输连接
(7) DataNode2与DataNode3建立数据传输连接
(8) 成功建立,返回OK
(9) 成功建立,返回OK
(10) 成功建立,返回OK
(11) 传输BLOCK1的数据,DataNode1会将BLock1写到本地
(12) 传输Block2的数据与Block1的数据传输过程一样
(13) Block都传输完成之后,NameNode会记录元数据信息:
hdfsFile.txt
Block1 三副本 分别在DataNode1 DataNode2 DataNode3
Block2 三副本 分别在xx xx xx

客户端从HDFS中读数据的过程

客户端读写数据到HDFS的流程
(1)读请求,hadoop fs –get /hdfsFile.txt
(2)返回文件的元数据信息,例如文件的Block1 在DataNode1、DataNode2、DataNode3,BLock2在DataNode2、DataNode3、DataNode4
(3)发送读取Block1的请求
(4)数据流返回
(5)发送读取Block2的请求
(6)数据流返回