Spark-SQL中DataSet|创建DataSet|DataSet强类型体现|RDD转换为DataSet|DataSet转换为RDD

DataSet

DataSet是具有强类型的数据集合,需要提供对应的类型信息。
在实际使用的时候,很少用到把序列转换成DataSet,更多是通过RDD来得到DataSet

创建DataSet

  1. 使用样例类序列创建DataSet

Spark-SQL中DataSet|创建DataSet|DataSet强类型体现|RDD转换为DataSet|DataSet转换为RDD

  1. 使用基本类型的序列创建DataSet

Spark-SQL中DataSet|创建DataSet|DataSet强类型体现|RDD转换为DataSet|DataSet转换为RDD

DataSet强类型体现

Spark-SQL中DataSet|创建DataSet|DataSet强类型体现|RDD转换为DataSet|DataSet转换为RDD

RDD转换为DataSet

SparkSQL能够自动将包含有样例类的RDD转换成DataSet,样例类定义了table的结构,样例类属性通过反射变成了表的列名。样例类可以包含诸如Seq或者Array等复杂的结构。

创建RDD — 创建样例类 — 将RDD转换为DataSet

Spark-SQL中DataSet|创建DataSet|DataSet强类型体现|RDD转换为DataSet|DataSet转换为RDD

DataSet转换为RDD

调用rdd方法即可。

Spark-SQL中DataSet|创建DataSet|DataSet强类型体现|RDD转换为DataSet|DataSet转换为RDD