Spark物理图的执行

1、先表结论,如下图所示:

Spark物理图的执行


2、文字说明:

  • 在每个stage阶段,是由一系列transformation(或者说task)组成的,每个task对应了一次partitionàpartitiontransformation操作;而不同stage之间则是shuffle,当然也是partitionàpartition
  • job中,每个stage阶段的partition变换是窄依赖,且partition个数是可以变化的,可以存在有1:1N:1,N:N等几种转换关系;stage之间则是宽依赖,partition个数一般也是变化的。