5分钟图解《Spark快速大数据分析》步骤6：RDD基本概念精炼版

第1步：RDD是什么？

RDD其实就是一个分布式的元素集合。作为一个数据集合，它感觉起来跟Array、List等集合差不多，只不过它复杂一些，这些集合中的数据，是分布在不同的电脑主机上的。

第2步：白话RDD计算流程（Spark Shell版）：

1、进入WindowsDOS 命令行（开始--->运行--->cmd）

2、启动Spark shell。（Spark shell是一个典型Spark内设驱动器程序Driver Program，它可以发起各种RDD操作）

3、Spark shell 默认创建了一个SparkContext对象，我们叫它sc。

4、输入xxxxxx（代码）按回车键，RDD进行转换操作（Transformation）。

5、输入xxxxxx（代码）按回车键，RDD进行行动操作（Action）。

6、屏幕显示出最终计算后的数据集合。比如：Array(xxx,xxx,xxx)

5分钟图解《Spark快速大数据分析》步骤6：RDD基本概念精炼版

第3步：Spark RDD计算流程图如下

5分钟图解《Spark快速大数据分析》步骤6：RDD基本概念精炼版

第4步：RDD有哪些要点（白话版）：

1、RDD计算过程中，Spark Shell创建的SparkContext对象（sc）开始与以下两个模块进行交互：

（1）集群管理器Cluster Manager，比较经典的有Yarn，Mesos等。

（2）工作节点Worker Node里的执行器Executor。

5分钟图解《Spark快速大数据分析》步骤6：RDD基本概念精炼版

英文版

5分钟图解《Spark快速大数据分析》步骤6：RDD基本概念精炼版

中文版

2、惰性求值：我们不应该把 RDD 看作存放着特定数据的数据集，而最好把每个 RDD 当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。这是因为RDD有一个很特别的地方：惰性求值。这意味着当我们对 RDD 调用转化操作（例如调用 map()）时，操作不会立即执行，而是Spark 会在内部记录下所要求执行的操作的相关指令信息，直到被调用行动操作时 Spark 才会真正开始计算。

5分钟图解《Spark快速大数据分析》步骤6：RDD基本概念精炼版

相关推荐