RDD使用

RDD操作

RDD的创建方式

  1. 从Hadoop文件系统(或与Hadoop兼容的其他持久化存储系统,如Hive、Cassandra、HBase)输入(例如HDFS)创建。
  2. 从父RDD转换得到新RDD。
  3. 通过parallelize或makeRDD将单机数据创建为分布式RDD。
    4.基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建

RDD的两种操作算子

对于RDD可以有两种操作算子:转换(Transformation)与行动(Action)。
1. 转换(Transformation):Transformation操作是延迟计算的,也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行,需要等到有Action操作的时候才会真正触发运算。
2. 行动(Action):Action算子会触发Spark提交作业(Job),并将数据输出Spark系统。

  • Transformation具体内容:
    RDD使用

  • Action具体内容
    RDD使用