Spark行动算子中的reduce()聚合|collect()以数组的形式返回数据集|foreach(f)遍历RDD中每一个元素

行动算子是触发了整个作业的执行。因为转换算子都是懒加载,并不会立即执行。

reduce()

1)函数签名:def reduce(f: (T, T) => T): T
2)功能说明:f函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。

Spark行动算子中的reduce()聚合|collect()以数组的形式返回数据集|foreach(f)遍历RDD中每一个元素

代码实现

Spark行动算子中的reduce()聚合|collect()以数组的形式返回数据集|foreach(f)遍历RDD中每一个元素

collect()

1)函数签名:def collect(): Array[T]
2)功能说明:在驱动程序中,以数组Array的形式返回数据集的所有元素。

Spark行动算子中的reduce()聚合|collect()以数组的形式返回数据集|foreach(f)遍历RDD中每一个元素

foreach()

Spark行动算子中的reduce()聚合|collect()以数组的形式返回数据集|foreach(f)遍历RDD中每一个元素

代码实现

Spark行动算子中的reduce()聚合|collect()以数组的形式返回数据集|foreach(f)遍历RDD中每一个元素