Hadoop spark sql项目实践

最近分布式计算结课做了一个小的实验报告,分享一下。
操作系统:ubuntu64 Hadoop

实验过程
1. 准备数据集,我的数据集是网上下载的相机记录一些地方交通违规次数数据集。(cameras.csv)
部分数据截图:
Hadoop spark sql项目实践

  1. 把本地文件系统中的cameras.csv上传到分布式文件系统HDFS中(放到hadoop用户目录下):

Hadoop spark sql项目实践

3.1 导包:
Hadoop spark sql项目实践

3.2 初始化sparksession
Hadoop spark sql项目实践

3.3 制作表头
Hadoop spark sql项目实践

3.4 生成DataFrame,从hdfs上读取
Hadoop spark sql项目实践

3.5 RDD转DataFrames(反射转换)
Hadoop spark sql项目实践

3.6 转换为df
Hadoop spark sql项目实践

3.7 注册为临时表cameras

Hadoop spark sql项目实践

  1. Spark SQL操作
    4.1 查询所有
    Hadoop spark sql项目实践

4.2 查询违规次数为91次的数据
Hadoop spark sql项目实践

4.3 查询违规次数小于一百次的数据
Hadoop spark sql项目实践

4.4查询违规地点经纬以42开头的数据
Hadoop spark sql项目实践

4.5 以违规次数降序排序
Hadoop spark sql项目实践

4.6 复合查询
满足:执行主语句查询所有
Hadoop spark sql项目实践
不满足:查询为空

Hadoop spark sql项目实践