SparkSQL愿景

代码量

计算平均数

使用hadoop的方式

SparkSQL愿景

spark方式-RDD

SparkSQL愿景

spark方式-DataFrame

SparkSQL愿景

spark方式-SQL

SparkSQL愿景
综上,很明显使用spark方式的DataFrame或者SQL都可以使代码可读性更好,代码更精简。

读写数据

从json读数据:df = sqlContext.read.format("json").option("samplingRatio", "0.1").load("/home/user1/data.json")
将文件写入json:df.write.format("parquet").mode("append").partitionBy("year").saveAsTable("fasterData")