大数据------搭建数据仓库过程及Yarn调度MR任务

搭建数据仓库过程 大数据------搭建数据仓库过程及Yarn调度MR任务

Yarn调度MR任务

MapReduce 应用：wordCount、倒排索引、网站排名、推荐共同好友等

MapReduce 编程模型底层基于Java开发

MapReduce分为Map阶段拆分，Reduce阶段合并。

1.任务：主任务（job）=Map（拆分）+Reduce（合并）

2.处理数据来源来自于HDFS(分布式文件存储系统)，结果同样存储在HDFS中

3.相对于MapReduce有两个输入和两个输出

4.MapReduce 数据按照键值对方式传输

5.相同的key会被同一个Reduce处理计算

6.数据类型都是Hadoop数据类型 String-----Test int intwritable

7.Hadoop 2.x以后MapReduce 运行在Yarn容器中

8.Map阶段的输出等于Reduce阶段的输入

大数据组件：运行机制实现原理实际解决方案

Hadoop生态离线数据处理基于Java

Storm 实时/流式处理基于Java

Spark 离线/实时基于批处理模拟流处理 Scala语言基于JVM

Flink 新一代计算引擎-----实时/离线基于流模拟批处理 Java语言