MapReduce部分:MapReduce的工作原理(副本)
MapReduce的工作原理:
map端就是计算向数据移动
map是并行的,map端结束才允许reduce,因为map的输出才是reduce的 输入,
做性别的统计:拉取男性的数据和女性的数据
MapReduce不需要太大的内存
相同的key为一组,这一组数据调用一次reduce方法
客户端首先是获得map的split清单。
切片信息
配置文件
jar包
jobtracker:
调度
对集群的资源管理
客户端的切片清单为规划
最终获得决策清单
弊端:
MapReduce和spark共用节点,产生争抢资源
产生了yarn
客户端是随着作业而启动,application MAster也是随着作业而启动
解决单点故障的问题
1.X没有yarn
2.x才出现了yarn
yarn和HDFS是独立的进程
yarn需要手动去启动
yarn的端口号是8088
由node03 的standby跳转到active的node04状态
获取文件下的内容:
put是推送,提交上去
get是获取,获得,拉下来