flume监控本地文件并同步到hdfs进行数据查询与分析

总体要求
利用python编写爬虫程序，从招聘网站上爬取数据，将数据存入到MongoDB数据库中，将存入的数据作一定的数据清洗后做数据分析，最后将分析的结果做数据可视化。
**

前期准备
**
1、配置大数据需要的环境
（1）配置Hadoop环境：可看博客：
（2）配置zookeeper环境：https://blog.****.net/weixin_44701468/article/details/106822805
（3）配置spark环境：
（3）配置hive环境：
（3）配置spark环境：
2、下载好需要的数据库：Mysql、MangoDB
3、准备好需要的数据：
flume监控本地文件并同步到hdfs进行数据查询与分析
爬取的是招聘网站前程无忧，由于爬取的一个数据不是很多，我就爬取了几个分别保存到了几个表中，大约有个百多兆的数据（数据量越多越好），第一次学习

具体实现过程
1、编写爬虫框架，爬取数据
建议博客：https://blog.****.net/weixin_43581288/article/details/106950359
里面有需要爬虫的字段，保存到的数据库，以及一些其他的要求
2、数据存储
正确搭建hadoop平台
flume监控本地文件并同步到hdfs进行数据查询与分析
选择flume协议传输形式

启动flame：
flume监控本地文件并同步到hdfs进行数据查询与分析

flume-ng agent -n agent1 -c conf -f /usr/module/flume/apache-flume-1.6.0-bin/conf/template-hdfs.conf -Dflume.root.logger=DEBUG,console

1
2
上传数据至目录：

将数据存储到hdfs：
flume监控本地文件并同步到hdfs进行数据查询与分析

3、进行hive查询：
1、具体要求（要求：1、利用hive进行分析，2、将hive分析结果利用sqoop技术存储到mysql数据库中，并最后显示分析结果。）：
（1）分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均工资、最高工资、最低工资，并作条形图将结果展示出来；
flume监控本地文件并同步到hdfs进行数据查询与分析

（2）分析“数据分析”、“大数据开发工程师”、“数据采集”等大数据相关岗位在成都、北京、上海、广州、深圳的岗位数，并做饼图将结果展示出来。

flume监控本地文件并同步到hdfs进行数据查询与分析

（3）分析大数据相关岗位1-3年工作经验的薪资水平（平均工资、最高工资、最低工资），并做出条形图展示出来；

（4）分析大数据相关岗位几年需求的走向趋势，并做出折线图展示出来；
flume监控本地文件并同步到hdfs进行数据查询与分析
总结：
项目使用爬虫、数据库、大数据分析等方法来完成，对爬虫的认识，使用、数据库（mangodb）的使用、大数据知识的运用都是很好的。爬虫有爬虫框架的搭建，代码的编写对我来说都是一个不小的难题，但通过查资料、和同学的探讨让我解决了这些问题，数据库（mangodb）使用还不是特别熟练，大数据各种环境的搭建也是一个不小的难题，配置的环境也是不少，我也是用来不少的时间来做这个事，在这其中还是有的。

flume监控本地文件并同步到hdfs进行数据查询与分析

相关推荐