SparkRDD的任务切分

角色

SparkRDD的任务角色分为四个:

  • Application
    每一个SparkContext就是一个Application
  • Job
    Application中每一个Action会生成一个Job
  • Stage
    根据RDD之间的依赖关系的不同将Job划分为不同的Stage(以宽依赖为界)
  • Task
    Stage是一个TaskSet,将Stage划分的结果发送到不同的Executor执行即为一个Task

SparkRDD的任务切分