[spark 面试]Reduce端OOM和shuffle file not found如何解决

1、Reduce端的OOM如何解决？
2、Shuffle file not found如何解决？

OOM产生的原因：数据对象太多。通过减少减小Cache层大小，从而减少OOM
代价：从Mapper端拉去数据的次数增多，性能下降

如果发生Reducer端的OOM，可以减少每个Reduce Task的缓存的大小，例如从默认的48MB降低到24MB，这样让程序可以从OOM崩溃的状态到可以运行的状态；
一个额外的调优技巧：如果内存足够大，可以增加缓存的大小，例如从48MB提升到96MB，这样可以减少网络传输的次数从而提高性能。

参数是：spark.reducer.maxSizeInFlight

一般情况下当Executor进行GC的时候，所有的线程都停止工作，当然包括进行数据传输的Netty中的线程也会停止工作，所以就暂时无法获取数据。
当Reducer端根据Driver端提供的信息到Mapper中指定的位置去获取属于自己的数据的时候，首先会去定位数据所在的文件，而此时可能发生shuffle file not found的错误。这个错误的出现一般是由于Mapper端正在进行GC，然后我们去请求数据的时候没有相应，spark.shuffle.io.maxRetries = 3 spark.shuffle.io.retryWait = 5s，默认情况下15s还没有拉到属于自己的数据就会出现shuffle file not found的错误。

解决办法是调大上述参数，建议调成spark.shuffle.io.maxRetries = 30，spark.shuffle.io.retryWait = 30s

[spark 面试]Reduce端OOM和shuffle file not found如何解决

相关推荐