大数据生态体系结构

大数据生态体系结构

Hadoop 的四大组件:common、HDFS、MapReduce、YARN

大数据生态体系结构

MapReduce:

基于 YARN 的大型数据集并行处理系统。是一种计算模型,用以进行大数据量的计算。Hadoop 的 MapReduce 实现,和 Common、HDFS 一起,构成了 Hadoop 发展初期的三个组件。MapReduce 将应用划分为 Map 和 Reduce 两个步骤,其中 Map 对数据集上的独立元素进行指定的操作,生成键 - 值对形式中间结果。Reduce 则对中间结果中相同 “键” 的所有 “值” 进行规约,以得到最终结果。MapReduce 这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。

YARN:

分布式集群资源管理框架,管理者集群的资源(Memory,cpu core)

合理调度分配给各个程序(MapReduce)使用

主节点:resourceManager。掌管集群中的资源

从节点:nodeManager。管理每台集群资源

Hadoop Distributed File System(HDFS):

Hadoop 实现了一个分布式的文件系统,HDFS 为海量的数据提供了存储。HDFS 是基于节点的形式进行构建的,里面有一个父节点 NameNode,他在机器内部提供了服务。NameNode 本身不干活,NameNode 将数据分成块,只是把数据分发给子节点,交由子节点来进行存储,由于只存在一个父节点,所以这是 HDFS 的一个缺点,单点失败。以及 n 个子节点DataNode,DataNode 在机器内部提供了数据块,存储在 HDFS 的数据被分成块,然后将这些块分到多个计算机 (DataNode) 中,这与传统的 RAID 架构大有不同。块的大小(通常为 64MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。

  • NameNode: NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。对于最常见的 3 个复制块,第一个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。

  • DataNode: DataNode 也是一个通常在 HDFS 实例中的单独机器上运行的软件。Hadoop 集群包含一个 NameNode 和大量 DataNode。DataNode 通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。Hadoop 的一个假设是:机架内部节点之间的传输速度快于机架间节点的传输速度。

common(工具类):

包括 Hadoop 常用的工具类,由原来的 Hadoopcore 部分更名而来。主要包括系统配置工具 Configuration、远程过程调用 RPC、序列化机制和 Hadoop 抽象文件系统 FileSystem 等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的 API。

org.apache.hadoop.conf,配置相关类。
org.apache.hadoop.fs,Hadoop文件系统。
org.apache.hadoop.io,Hadoop I/O系统。
org.apache.hadoop.ipc,Hadoop远程过程。
其他包,org.apache.hadoop.log,日志。org.apache.hadoop.metrics,用于度量统计和分析的。org.apache.hadoop.http和org.apache.hadoop.net,Hadoop对网络层次相关的封装。org.apache.hadoop.util,Common中的公共方法类,checkSum校验和的验证方法就包含于此。