Spark RDD 基础入门

目录

 

1.创建 RDD

2.操作RDD

3.RDD之Spark运行流程


1.创建 RDD

使用程序中的集合创建RDD;
使用本地文件创建RDD;
        亦可以通过输入目录路径来生成(自动的将文件进行合并)
使用HDFS文件创建RDD;
         输入hdfs 上的文件路径即可!

 

2.操作RDD

transaction特性:
lazy : 基本的tansaction操作,都不会真正的执行
             直到 action 的操作!! 
             作用: 有利于 spark  对 transaction 的过程进行优化!
             理解: transaction 的算子操作就类似于  map + filter 的操作
                            放到一起运行时,存在着并行,任务与任务之间的交互的可能

action:会触发一个 spark job 的执行,然后会提交 Driver 到注册过的 worker 节点上 ,
                然后节点上的 Executor 进程在从 HDFS 上开始进行程序的运行

 

3.RDD之Spark运行流程

 

Spark RDD 基础入门