HDFS写流程

1，几种hdfs读取命令的区别：

hdfs dfs -ls /       //读取的hdfs系统的根目录，
hdfs dfs -ls  hdfs://hadoop:9000/    //hdfs://hadoop:9000/来自配置文件core-site.xml的
hdfs dfs -ls  //读取当前操作用户的路径例如 /user/用户/

2.写流程图：
HDFS写流程

hdfs dfs -put xx.tet /      // 一个简单的写入

1）Client调用FileSystem.create(filePath),去与NN节点进行RPC通信，检查该路径是否存在，是否有权限创建该文件。

假如OK，就创建一个新的文件，但是不关联任何的block，返回一个FSDataOutputStream对象；
假如不OK就返回错误信息，下面代码报错就是没有权限创建该文件，

[email protected] hadoop-2.6.0-cdh5.7.0]# bin/hdfs dfs -put README.txt /
put: Permission denied: user=root, access=WRITE, inode="/":hadoop:supergroup:drwxr-xr-x
[[email protected] hadoop-2.6.0-cdh5.7.0]#

2)client调用FSDataOutputStream方法先将数据分块，写入data queue。data queue由data Streamer读取，并通知元数据节点分配数据节点，用来存储数据块，分配的数据节点放在一个pipeline里。data Streamer将数据块写入pipeline中的第一个DN,第一个DN写完就传输给第二个DN，第二个DN写完就传输给第三个DN，当第三DN写完，就返回一个ack packet给第二个DN,当第二个DN接受到第三个的DN的ack packet，就发送ack packet
给第一个DN,当第一个DN接受到第二个的DN的ack packet，就返回ack packet
给FSDataOutputStream对象,标识第一个块的三个副本写完；
然后其余的块一次这样写。
3）当文件全部写完，client调用FSDataOutputStream对象的close方法，关闭输出流。
4）再次调用FlieSystem.complete(),告诉NN节点写入成功。
5)如果数据节点在写入过程失败，关闭pipeline，将ack queue中的数据块放入data queue的开始，
当前的数据块在已经写入的数据节点中被元数据节点赋予新的标识，则错误的数据节点重启后能够察觉其数据块是过时的，会被删除，失败的数据节点从pipeline中移除，另外的数据块则写入pipeline中的另外两个DN，元数据节点则被通知数据块复制块数不足，将创建第三备份。

相关推荐