spark rdd之间的宽依赖和窄依赖
①task从hdfs读取数据到linesRDD中,同一批task对linesRDD进行flatMap操作;
②继续对wordsRDD做map操作,记录单词次数
③这个地方会划分一个stage,新的一批task会提交到executor上,对pairs RDD做reduceByKey操作
窄依赖(narrow dependency):每一个父RDD的Partition最多被子RDD的一个Partition使用。
宽依赖(Shuffle dependency):指的是多个子RDD的Partition会依赖同一个父RDD的Partition,本质上每一个父RDD中数据都有可能传播到子RDD中,即这也是数据发生shuffle的过程。