Spark-SQL中DataSet|创建DataSet|DataSet强类型体现|RDD转换为DataSet|DataSet转换为RDD
DataSet
DataSet是具有强类型的数据集合,需要提供对应的类型信息。
在实际使用的时候,很少用到把序列转换成DataSet,更多是通过RDD来得到DataSet
创建DataSet
- 使用样例类序列创建DataSet
- 使用基本类型的序列创建DataSet
DataSet强类型体现
RDD转换为DataSet
SparkSQL能够自动将包含有样例类的RDD转换成DataSet,样例类定义了table的结构,样例类属性通过反射变成了表的列名。样例类可以包含诸如Seq或者Array等复杂的结构。
创建RDD — 创建样例类 — 将RDD转换为DataSet
DataSet转换为RDD
调用rdd方法即可。