spark

每日积累
RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)
DataFrame, DataSet
DataFrame:类似RDD,是一个分布式数据容器;除数据以外,记录了数据的结构信息,即schema。

DataFrame和RDD的区别
例如RDD[User] spark不知道User的内部结构,然而DataFrame提供了具体的结构信息

DataSet
它时DataFrame API 的扩展;DataSet支持编解码器;样例类被用来在DataSet中定义数据的结构信息

RDD DataFrame 和DataSet的交互
spark