Spark RDD 基础入门
目录
1.创建 RDD
使用程序中的集合创建RDD;
使用本地文件创建RDD;
亦可以通过输入目录路径来生成(自动的将文件进行合并)
使用HDFS文件创建RDD;
输入hdfs 上的文件路径即可!
2.操作RDD
transaction特性:
lazy : 基本的tansaction操作,都不会真正的执行
直到 action 的操作!!
作用: 有利于 spark 对 transaction 的过程进行优化!
理解: transaction 的算子操作就类似于 map + filter 的操作
放到一起运行时,存在着并行,任务与任务之间的交互的可能
action:会触发一个 spark job 的执行,然后会提交 Driver 到注册过的 worker 节点上 ,
然后节点上的 Executor 进程在从 HDFS 上开始进行程序的运行
3.RDD之Spark运行流程