Spark中宽依赖和窄依赖的区别

Spark中宽依赖和窄依赖
窄依赖:RDD的每个分区仅依赖一个父RDD的分区;
宽依赖:RDD的每个分区依赖多个父RDD的分区;

Spark中宽依赖和窄依赖的区别

那么为什么要区分窄依赖和宽依赖呢?
窄依赖在划分Stage时,可以划分在一起,而且可以并行计算,并且在数据恢复时只需要重新计算父RDD即可,恢复方便。而宽依赖则不然,因为宽依赖的范围较广,必须重新计算所有的父RDD依赖,计算量大,不容易恢复。