hadoop 学习笔记之3-hdfs读写流程

一、hdfs读文件流程

    hadoop 学习笔记之3-hdfs读写流程

1)、hdfs client调用FileSystem.open(),DistributedFileSystem通过RPC与Namenode通信,NN返回该文件的部分或全部block列表,选取离客户端最优位置DataNode;

2)、FSDataInputStream,读取block信息,当读到block结尾的时候,FSDataInputStream关闭与NN的连接,继续读取下一个最优的block信息,每读完一个block都会进行checksum验证,如果读取出现异常,通知NN,会从其他副本中读取该block,如果block列表读完后,文件未结算会继续从NN读取下一批block列表,最后完成后关闭FSDataInputStream。

二、HDFS文件写入流程

hadoop 学习笔记之3-hdfs读写流程

1、hdfs client调用FileSystem.open(),DistributedFileSystem通过RPC与Namenode通信,在NN的namespace里创建一个新的文件但并不关联任何块,NN检查文件是否存在,操作权限,如果通过NN记录新文件信息,并在某个DN上创建数据块,返回FSDataOutputStream,将client引致数据块写入数据;

2、client调用write()方法,通过FSDataOutputStream流将数据首先写入第一个节点,第一个节点将数据传给第二个,第二个传给第三个。HDFS默认是每个block放置3份;

3、client 调用close方法,flush缓存区的数据包,block完成复制后,NN返回成功信息。