flume监控本地文件并同步到hdfs进行数据查询与分析

总体要求
利用python编写爬虫程序,从招聘网站上爬取数据,将数据存入到MongoDB数据库中,将存入的数据作一定的数据清洗后做数据分析,最后将分析的结果做数据可视化。
**

前期准备
**
1、配置大数据需要的环境
(1)配置Hadoop环境:可看博客:
(2)配置zookeeper环境:https://blog.****.net/weixin_44701468/article/details/106822805
(3)配置spark环境:
(3)配置hive环境:
(3)配置spark环境:
2、下载好需要的数据库:Mysql、MangoDB
3、准备好需要的数据:
flume监控本地文件并同步到hdfs进行数据查询与分析
爬取的是招聘网站前程无忧,由于爬取的一个数据不是很多,我就爬取了几个分别保存到了几个表中,大约有个百多兆的数据(数据量越多越好),第一次学习

具体实现过程
1、编写爬虫框架,爬取数据
建议博客:https://blog.****.net/weixin_43581288/article/details/106950359
里面有需要爬虫的字段,保存到的数据库,以及一些其他的要求
2、数据存储
正确搭建hadoop平台
flume监控本地文件并同步到hdfs进行数据查询与分析
选择flume协议传输形式

启动flame:
flume监控本地文件并同步到hdfs进行数据查询与分析

flume-ng agent -n agent1 -c conf -f /usr/module/flume/apache-flume-1.6.0-bin/conf/template-hdfs.conf -Dflume.root.logger=DEBUG,console

1
2
上传数据至目录:

将数据存储到hdfs:
flume监控本地文件并同步到hdfs进行数据查询与分析

3、进行hive查询:
1、具体要求(要求:1、利用hive进行分析,2、将hive分析结果利用sqoop技术存储到mysql数据库中,并最后显示分析结果。):
(1)分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均工资、最高工资、最低工资,并作条形图将结果展示出来;
flume监控本地文件并同步到hdfs进行数据查询与分析
flume监控本地文件并同步到hdfs进行数据查询与分析
flume监控本地文件并同步到hdfs进行数据查询与分析
(2)分析“数据分析”、“大数据开发工程师”、“数据采集”等大数据相关岗位在成都、北京、上海、广州、深圳的岗位数,并做饼图将结果展示出来。

flume监控本地文件并同步到hdfs进行数据查询与分析
flume监控本地文件并同步到hdfs进行数据查询与分析
flume监控本地文件并同步到hdfs进行数据查询与分析
(3)分析大数据相关岗位1-3年工作经验的薪资水平(平均工资、最高工资、最低工资),并做出条形图展示出来;
flume监控本地文件并同步到hdfs进行数据查询与分析
flume监控本地文件并同步到hdfs进行数据查询与分析
flume监控本地文件并同步到hdfs进行数据查询与分析
(4)分析大数据相关岗位几年需求的走向趋势,并做出折线图展示出来;
flume监控本地文件并同步到hdfs进行数据查询与分析
总结:
项目使用爬虫、数据库、大数据分析等方法来完成,对爬虫的认识,使用、数据库(mangodb)的使用、大数据知识的运用都是很好的。爬虫有爬虫框架的搭建,代码的编写对我来说都是一个不小的难题,但通过查资料、和同学的探讨让我解决了这些问题,数据库(mangodb)使用还不是特别熟练,大数据各种环境的搭建也是一个不小的难题,配置的环境也是不少,我也是用来不少的时间来做这个事,在这其中还是有的。