Spark RDD的Action执行过程——Task剖析

Pool会依次执行TaskRunner
Spark RDD的Action执行过程——Task剖析
下面就分析TaskRunner中的run方法

这里调用了task的run方法

这里调用了runTask方法,这个方法是一个抽象方法,有两种实现,一个是ShuffleMapTask的实现,另一个是ResultTask的实现

首先看一下比较复杂的ShuffleMapTask
这里的注意点在于writer.write方法中的rdd.iterator()方法
Spark RDD的Action执行过程——Task剖析
分析computerOrReadCheckpoint()方法

下面是MapPartitionsRDD的compute方法分析
这个方法就是task执行rdd上算子的实现.若实在是找不到已经计算好的结果,那最终就会调用这个方法进行计算

当然了不管结果是计算出来的还是直接取得的都要把task执行完成的消息传达会给executor
这里就向对应的executor的backend update了task的status
Spark RDD的Action执行过程——Task剖析
backend的statusUpdate方法

下面再来看一下ResultTask

Spark RDD的Action执行过程——Task剖析

相关推荐