[大数据]连载No12之Spark Shuffle

本次知识点见目录
[大数据]连载No12之Spark Shuffle
1：Spark计算会发生Shuffle的原因
大数据计算每一个key对应得value不一定在一个partition里，因为RDD是分布室的弹性的数据集

Shuffle 两阶段
1：Shuffle Write
上一个stage的每个map task就必须保证将自己处理的当前分区的数据相同的key写入到一个分区文件中，可能就会写入多个不同的的分区文件中

2：shuffle Read
reduce task会从上一个stage的所有task所在的机器寻找属于自己的那些分区文件，这样就可以保证每一个key所对应的value都会汇聚在同一个节点上去处理和聚合

Hash Shuffle 和Sort Shuffle(默认)
区别：shuffle过程中，一个不会排序，一个会

Hash Shuffle两种机制
1：普通机制：产生小文件个数多，会生成 M（map Task）*R (reduce Task)个小文件，
2：合并机制：（优化后）配置 spark.shuffle.consolidateFiles=true,开启合并小文件机制，大幅度减少shuffle write的输出文件，但是每一个executor同一时刻只能执行一个task,后面task复用前面task执行的小文件，个数为 C(核个数)+R（reduce task）
3：成成文件个数：
如果 reduceByKey(_+_),那么reduceTask个数和map Task个数一致
如果 reduceByKey(_+_，numberPartitions),那么reduceTask个数为 numberPartitions

见图 spark-306-shuffle.png

[大数据]连载No12之Spark Shuffle
Sort Shuffle两种运行机制
-普通运行机制，产生小文件个数 2(一个索引文件+一个结果)*M（mapTask）个
-bypass运行机制没有排序过程，少了索引文件，触发条件 shuffle reduce task数量小于
spark.shuffle.sort.bypassMergeThreshold参数的值

普通运行机制见图：
[大数据]连载No12之Spark Shuffle

[大数据]连载No12之Spark Shuffle

相关推荐