spark内核架构深度剖析(standalone模式下)

深入理解spark程序运作的整个流程,对我们编写高质量的spark工程,以及排查程序运行过程中遇到的错误都非常重要。

spark资源调度器包括standalone模式自带、yarn、mesos等,理解spark程序从提交到运行结束整个运行的流程,个人认为从standalone模式入手最为清晰和经典。

下面画图来说一下整个过程。

spark内核架构深度剖析(standalone模式下)

整个过程中涉及几个非常重要的算法:stage的划分算法、task的分配算法、master的资源调度算法。这些算法会在其他讲中具体讲解