您的位置: 首页 > 文章 > 关于hadoop集群你需要知道的知识点

关于hadoop集群你需要知道的知识点

分类: 文章 • 2024-08-30 21:51:16

记录每天在成为大数据工程师路上的成长点滴

什么是job
什么是task
关于NameNode
namespace镜像文件（namespace image）和操作日志文件（edit log）文件的作用
关于DataNode
NameNode，DataNode，namespace，Edit log之间的关系
关于JobTracker
关于TaskTracker

PS：之前瞎鼓捣在实验室两台主机搭建了伪分布式hadoop集群，今天由于遇到datanode开启却无法显示等小问题搞的很头疼！想想还是要脚踏实地，要了解hadoop运行机制！

关于上述几点问题解释如下：

关于job，task
在MapReduce中，一个准备提交执行的应用程序称为job，从一个job中划分出来并运行在各个节点的工作单元称为task。
关于NameNode
首先，NameNode管理文件系统的命名空间（namespace）。它维护着文件系统树及整棵树内所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上：命名空间镜像文件（namespace image）和编辑日志文件（edit log）。NameNode也记录着每个文件中各个块所在的数据节点信息，但它并不永久保存块的位置信息，因为这些信息在系统启动时由数据节点重建。