数据倾斜

概述：

当reducer端从mappertask中去抓取属于它自己的数据的时候大量的相同的key被分到了同一个reducer区(shuffer)

当上游的数据需要分组到下游任务的时候，数据出现了不均匀的现象

1.key的性质，

2.key本身不好

3.（shuffer）

绝大多数的ReducerTask都执行的非常快但有个别的ReducerTask执行的非常慢

1.不取模没有分区就没有reducer了就避免了shuffer

2.无法避免shuffer，将从mapper端输出的K 在mapper端就打散让它在reducer端出现的概率基本均衡

3.加内存提高reducer端的并行度也就是增加聚合运算的机器

4上游局部聚合（combiner组件）提前聚合减轻reducer端的负担

5.重新设计key

数据倾斜及解决方案