大数据------搭建数据仓库过程及Yarn调度MR任务
搭建数据仓库过程
Yarn调度MR任务
MapReduce 应用:wordCount、倒排索引、网站排名、推荐共同好友等
MapReduce 编程模型底层基于Java开发
MapReduce分为Map阶段拆分,Reduce阶段合并。
1.任务:主任务(job)=Map(拆分)+Reduce(合并)
2.处理数据来源来自于HDFS(分布式文件存储系统),结果同样存储在HDFS中
3.相对于MapReduce有两个输入和两个输出
4.MapReduce 数据按照键值对方式传输
5.相同的key会被同一个Reduce处理计算
6.数据类型都是Hadoop数据类型 String-----Test int intwritable
7.Hadoop 2.x以后MapReduce 运行在Yarn容器中
8.Map阶段的输出等于Reduce阶段的输入
大数据组件:运行机制 实现原理 实际解决方案
Hadoop生态 离线数据处理 基于Java
Storm 实时/流式处理 基于Java
Spark 离线/实时 基于批处理模拟流处理 Scala语言 基于JVM
Flink 新一代计算引擎-----实时/离线 基于流模拟批处理 Java语言