大数据-Hadoop中的HDFS架构、YARN架构、MapReduce架构

HDFS架构

  1. NameNode(nn): 存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DateNode等.
  2. DataNode(dn): 在本地文件系统存储文件块数据,以及块数据的校验和.
  3. Secondary NameNode(2nn): 用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照.

YARN架构

  1. ResourceManager(RM)主要作用:
  • 处理客户端请求
  • 监控NodeManager
  • 启动或监控ApplicationMaster
  • 资源的分配与调度
  1. NodeManager(NM)主要作用:
  • 管理单个节点上的资源
  • 处理来着ResourceManager的命令
  • 处理来着ApplicationMaster的命令
  1. ApplicationMaster(AM)的作用:
  • 辅助数据的切分
  • 为应用程序申请资源并分配给内部的任务
  • 任务的监控与容错
  1. Container
  • Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等.
    大数据-Hadoop中的HDFS架构、YARN架构、MapReduce架构

MapReduce架构

MapReduce将计算过程分为两个阶段:Map和Reduce

  1. Map阶段并行处理输入数据
  2. Reduce阶段对Map结果进行汇总
    大数据-Hadoop中的HDFS架构、YARN架构、MapReduce架构