Hadoop spark sql项目实践
最近分布式计算结课做了一个小的实验报告,分享一下。
操作系统:ubuntu64 Hadoop
实验过程
1. 准备数据集,我的数据集是网上下载的相机记录一些地方交通违规次数数据集。(cameras.csv)
部分数据截图:
- 把本地文件系统中的cameras.csv上传到分布式文件系统HDFS中(放到hadoop用户目录下):
3.1 导包:
3.2 初始化sparksession
3.3 制作表头
3.4 生成DataFrame,从hdfs上读取
3.5 RDD转DataFrames(反射转换)
3.6 转换为df
3.7 注册为临时表cameras
- Spark SQL操作
4.1 查询所有
4.2 查询违规次数为91次的数据
4.3 查询违规次数小于一百次的数据
4.4查询违规地点经纬以42开头的数据
4.5 以违规次数降序排序
4.6 复合查询
满足:执行主语句查询所有
不满足:查询为空