hadoop的shuffle过程

hadoop的shuffle分为map端的shuffle和reduce端的shuffle

1、map端的shuffle

hadoop的shuffle过程

如上图所示:

     maptask先调用InputFormat中的getRecordReader方法,获取RecordReader对象读取文件。读取进内存中,经过map方法中的context.write()写出,由OutPutCollector收集到数据,并存放到环形缓冲区中,当缓冲区中的数据达到80%时,系统启动一个线程,将缓冲区中的数据写入到磁盘中,形成spill文件。

    在写出之前,会进行两次排序,首先根据数据所属的partition进行分区(默认采用HashPartition,对key的hash值相同的分到同一个区),然后对分区内的数据根据key进行排序,可以通过自定义对象的compare方法重新规定排序规则,目的是为了实现负载均衡。如果定义了Combiner组件,然后会运行Combiner组件,在数据写出之前先进行一次聚合,可以减少数据量,最后写出到磁盘。map阶段可能会写出多个spill文件,最后会经过多路归并算法,将这些spill文件合并成一个文件。

2、reduce端的shuffle

hadoop的shuffle过程

如上图所示:

maptask执行完以后,ApplicationMaster会通知reducetask,reducetask从map端拉取数据,每个reduce回先对拉取到的数据进行归并排序合并文件,然后按照key进行分组,可以通过定义GroupingCompator组件重新定义分组规则,然后进行reduce处理,处理完以后输出到磁盘文件。