MapReduce部分:MapReduce的工作原理(副本)

MapReduce的工作原理:

MapReduce部分:MapReduce的工作原理(副本)

map端就是计算向数据移动

map是并行的,map端结束才允许reduce,因为map的输出才是reduce的 输入,

做性别的统计:拉取男性的数据和女性的数据

MapReduce部分:MapReduce的工作原理(副本)

MapReduce不需要太大的内存

MapReduce部分:MapReduce的工作原理(副本)

相同的key为一组,这一组数据调用一次reduce方法

客户端首先是获得map的split清单。

切片信息

配置文件

jar包

jobtracker:

调度

对集群的资源管理

MapReduce部分:MapReduce的工作原理(副本)

客户端的切片清单为规划

 最终获得决策清单

MapReduce部分:MapReduce的工作原理(副本)

 

弊端:

MapReduce和spark共用节点,产生争抢资源

产生了yarn

MapReduce部分:MapReduce的工作原理(副本)

 客户端是随着作业而启动,application MAster也是随着作业而启动

解决单点故障的问题

1.X没有yarn

2.x才出现了yarn

yarn和HDFS是独立的进程

MapReduce部分:MapReduce的工作原理(副本)

MapReduce部分:MapReduce的工作原理(副本)

MapReduce部分:MapReduce的工作原理(副本)

MapReduce部分:MapReduce的工作原理(副本)

MapReduce部分:MapReduce的工作原理(副本)

MapReduce部分:MapReduce的工作原理(副本)

MapReduce部分:MapReduce的工作原理(副本)

MapReduce部分:MapReduce的工作原理(副本)

MapReduce部分:MapReduce的工作原理(副本)

MapReduce部分:MapReduce的工作原理(副本)

MapReduce部分:MapReduce的工作原理(副本)

yarn需要手动去启动

MapReduce部分:MapReduce的工作原理(副本)

 MapReduce部分:MapReduce的工作原理(副本)

 MapReduce部分:MapReduce的工作原理(副本)

MapReduce部分:MapReduce的工作原理(副本)

yarn的端口号是8088

 MapReduce部分:MapReduce的工作原理(副本)

MapReduce部分:MapReduce的工作原理(副本)

由node03 的standby跳转到active的node04状态

 

MapReduce部分:MapReduce的工作原理(副本)

MapReduce部分:MapReduce的工作原理(副本)

 MapReduce部分:MapReduce的工作原理(副本)

 MapReduce部分:MapReduce的工作原理(副本)

MapReduce部分:MapReduce的工作原理(副本) 获取文件下的内容:

MapReduce部分:MapReduce的工作原理(副本)

put是推送,提交上去

get是获取,获得,拉下来

MapReduce部分:MapReduce的工作原理(副本)