5分钟图解《Spark快速大数据分析》步骤6:RDD基本概念精炼版

第1步:RDD是什么?

RDD其实就是一个分布式的元素集合。作为一个数据集合,它感觉起来跟Array、List等集合差不多,只不过它复杂一些,这些集合中的数据,是分布在不同的电脑主机上的。

第2步:白话RDD计算流程(Spark Shell版):

1、进入WindowsDOS 命令行(开始--->运行--->cmd)

2、启动Spark shell。(Spark shell是一个典型Spark内设驱动器程序Driver Program,它可以发起各种RDD操作)

3、Spark shell 默认创建了一个SparkContext对象,我们叫它sc。

4、输入xxxxxx(代码)按回车键,RDD进行转换操作(Transformation)。

5、输入xxxxxx(代码)按回车键,RDD进行行动操作(Action)。

6、屏幕显示出最终计算后的数据集合。比如:Array(xxx,xxx,xxx)

5分钟图解《Spark快速大数据分析》步骤6:RDD基本概念精炼版

 

第3步:Spark RDD计算流程图如下

5分钟图解《Spark快速大数据分析》步骤6:RDD基本概念精炼版

 

第4步:RDD有哪些要点(白话版):

1、RDD计算过程中,Spark Shell创建的SparkContext对象(sc)开始与以下两个模块进行交互:

(1)集群管理器Cluster Manager,比较经典的有Yarn,Mesos等。

(2)工作节点Worker Node里的执行器Executor。

5分钟图解《Spark快速大数据分析》步骤6:RDD基本概念精炼版

英文版

5分钟图解《Spark快速大数据分析》步骤6:RDD基本概念精炼版

中文版

2、惰性求值:我们不应该把 RDD 看作存放着特定数据的数据集,而最好把每个 RDD 当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。这是因为RDD有一个很特别的地方:惰性求值。这意味着当我们对 RDD 调用转化操作(例如调用 map())时,操作不会立即执行,而是Spark 会在内部记录下所要求执行的操作的相关指令信息,直到被调用行动操作时 Spark 才会真正开始计算。