MapReduce Shuffle过程

以下1、2、3点是map端的shuffle，4、5、6是reduce端的shuffle：

map任务出来的数据会先写到环形缓冲区，数据在进入缓冲区之前是（k，v）类型，进入缓冲区之后就会变成（k，v，p）p是分区号。当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，每写一次磁盘就会生成一个文件，这个过程叫spill。
写入磁盘之前会先发生分区和排序，分区默认是根据哈希算法排序，也可以自定义；排序默认是按照key进行排序，同样也可以自定义。
把之前所有的写磁盘文件合并起来，使得最后每个map任务对应一个输出文件。
每个map任务的输出文件都可能有一个或多个分区，每个分区会对应一个reduce任务，但是每个reduce任务可以处理一个或多个分区。map输出的文件会被发送到reduce端，这些文件会被存放在内存缓存中，如果内存满了就会放到磁盘。
接下来就是把所有map任务的分区合并，采用的是归并排序。
最后就是分组，默认按相同key值进行分组，也可以自定义。