[大数据]连载No12之Spark Shuffle

本次知识点见目录
[大数据]连载No12之Spark Shuffle
1:Spark计算会发生Shuffle的原因
大数据计算每一个key对应得value不一定在一个partition里,因为RDD是分布室的弹性的数据集


Shuffle 两阶段
1:Shuffle  Write
上一个stage的每个map task就必须保证将自己处理的当前分区的数据相同的key写入到一个分区文件中,可能就会写入多个不同的的分区文件中

2:shuffle Read
reduce task会从上一个stage的所有task所在的机器寻找属于自己的那些分区文件,这样就可以保证每一个key所对应的value都会汇聚在同一个节点上去处理和聚合

Hash Shuffle 和Sort Shuffle(默认)
区别:shuffle过程中,一个不会排序,一个会

Hash Shuffle两种机制
1:普通机制:产生小文件个数多,会生成 M(map Task)*R (reduce Task)个小文件,
2:合并机制:(优化后)配置 spark.shuffle.consolidateFiles=true,开启合并小文件机制,大幅度减少shuffle write的输出文件,但是每一个executor同一时刻只能执行一个task,后面task复用前面task执行的小文件,个数为 C(核个数)+R(reduce task)
3:成成文件个数:
如果 reduceByKey(_+_),那么reduceTask个数和map Task个数一致
如果 reduceByKey(_+_,numberPartitions),那么reduceTask个数为 numberPartitions


见图 spark-306-shuffle.png

[大数据]连载No12之Spark Shuffle
Sort Shuffle两种运行机制
-普通运行机制,产生小文件个数 2(一个索引文件+一个结果)*M(mapTask)个
-bypass运行机制 没有排序过程,少了索引文件,触发条件 shuffle reduce task数量小于 
spark.shuffle.sort.bypassMergeThreshold参数的值

普通运行机制见图 :
[大数据]连载No12之Spark Shuffle