MR从读取数据开始到将最终结果写入HDFS经过哪些步骤（数据层面和内存层面）

数据层面

shuffle(核心机制：数据分区，排序，分组，ComBine，合并等过程) 输出key value的list
|
|
第五步： partition partition: 按照一定的规则对 **key value的 list进行分区
输出给Shuffle（sort）
|
第六步：Sort Sort :对每个分区内的数据进行排序。
输出给Shuffle（Combiner）
|
第七步：Combiner Combiner: 在Map端进行局部聚合（汇总）
目的是为了减少网络带宽的开销
输出给Shuffle（Group）
|
第八步：Group Group: 将相同key的key提取出来作为唯一的key 将相同key对应的value提取出来组装成一个value 的List
输出给Shuffle（reduce）
|
|
|
第九步: reduce：根据业务需求对传入的数据进行汇总计算。输出给Shuffle（outputFormat）
|
|
|
|
|
第十步：outputFormat outputFormat:将最终的额结果写入HDFS

图解

内存层面

内存角度介绍Map的输出到Reduce的输入的过程。
Map将数据传入环形缓冲区（默认100MB 可修改），环形缓冲区中的数据到达一定的阈值时（默认0.8 可修改）进行溢写生成好多临时文件，多个临时文件到达一定数量进行merge合并成一个大文件，
reduce会主动去发起拷贝线程到maptask获取属于自己的数据，数据会进入ReduceTask中的环形缓冲区，当缓冲区中的数据量到达一定阈值进行溢写，多个临时文件merge合并成一个大文件，最后输入到Reduce。

图解

MR从读取数据开始到将最终结果写入HDFS经过哪些步骤（数据层面和内存层面）

MR从读取数据开始到将最终结果写入HDFS经过哪些步骤（数据层面和内存层面）

数据层面

图解

内存层面

图解

相关推荐