关于hadoop集群你需要知道的知识点
记录每天在成为大数据工程师路上的成长点滴
- 什么是job
- 什么是task
- 关于NameNode
- namespace镜像文件(namespace image)和操作日志文件(edit log)文件的作用
- 关于DataNode
- NameNode,DataNode,namespace,Edit log之间的关系
- 关于JobTracker
- 关于TaskTracker
PS:之前瞎鼓捣在实验室两台主机搭建了伪分布式hadoop集群,今天由于遇到datanode开启却无法显示等小问题搞的很头疼!想想还是要脚踏实地,要了解hadoop运行机制!
关于上述几点问题解释如下:
关于job,task
在MapReduce中,一个准备提交执行的应用程序称为job,从一个job中划分出来并运行在各个节点的工作单元称为task。关于NameNode
首先,NameNode管理文件系统的命名空间(namespace)。它维护着文件系统树及整棵树内所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像文件(namespace image)和编辑日志文件(edit log)。NameNode也记录着每个文件中各个块所在的数据节点信息,但它并不永久保存块的位置信息,因为这些信息在系统启动时由数据节点重建。