Spark RDD的Action执行过程——Task剖析
Pool会依次执行TaskRunner
下面就分析TaskRunner中的run方法
这里调用了task的run方法
这里调用了runTask方法,这个方法是一个抽象方法,有两种实现,一个是ShuffleMapTask的实现,另一个是ResultTask的实现
首先看一下比较复杂的ShuffleMapTask
这里的注意点在于writer.write方法中的rdd.iterator()方法
分析computerOrReadCheckpoint()方法
下面是MapPartitionsRDD的compute方法分析
这个方法就是task执行rdd上算子的实现.若实在是找不到已经计算好的结果,那最终就会调用这个方法进行计算
当然了不管结果是计算出来的还是直接取得的都要把task执行完成的消息传达会给executor
这里就向对应的executor的backend update了task的status
backend的statusUpdate方法
下面再来看一下ResultTask