Spark内核架构深度剖析

1，通过spark-submit提交编写好的Spark程序，这时候spark会通过反射的方式，创建和构造一个DriverActor进程出来。

2，Driver进程会执行我们的Application应用程序，在代码中SparkContext在初始化的时候会构造出来DAGScheduler和Task Scheduler，

3，应用程序每执行到一个action就会创建一个job，job会提交给DAGScheduler，DAGScheduler会通过stage划分算法将job划分为多个stage，然后每个stage创建一个TaskSet，通过TaskScheduler来连接Master（TaskScheduler通过它对应的一个后台进程去连接Master，向Master注册Application）。

4，Master接收到Application注册的请求之后，会使用自己的资源调度算法在spark集群的worker上为这个Application启动多个Executor。

5，Master通知worker启动Executor，在Executor进程的内部有一个线程池。

6，Executor启动后，会自己反向注册到TaskScheuler上去。

7，TaskScheuler上面有了Executor的注册信息，TaskScheuler会把TaskSet里面的每一个task提交到executor上去执行（task分配算法）。

8，Executor每接收到一个task，都会调用TaskRunner来封装task，然后从线程池里取出一个线程，执行这个task。（Task Runner将要执行的算子以及函数，拷贝，反序列化，然后执行Task）（Task有两种，ShuffleMapTask和ResultTask，只有最后一个task是ResultTask，之间的stage，都是ShuffleMapTask）。

Spark内核架构深度剖析

相关推荐