大数据挖掘分析与应用 (七) MapReduce操作

MapReduce框架

一 MapReduce概述
优点:1.海量数据离线处理 2.易开发 3.易运行
缺点:实时流计算
MapReduce计算框架,基于磁盘(硬盘)IO输入输出
我从磁盘上读取数据到内存中,计算,得出结果放到磁盘

spark计算框架 ,基于内存的(内存条) 很短的时间内,数据是直接到内存的,计算,结果返回
大数据挖掘分析与应用 (七) MapReduce操作
MapReduce编程之工作流程:
1.将作业拆分为Map阶段和Reduce阶段
2.Map阶段:Map Tasks
3.Reduce 阶段:Reduce Tasks
大数据挖掘分析与应用 (七) MapReduce操作
WordCount案例:统计文件中每个单词出现的次数
工作中很多场景都是源于这个案例
需求:1. 文件小的情况,shell脚本就可以解决