python爬取boss直聘绘制招聘要求词云图

python爬取boss直聘绘制招聘要求词云图

前言

因为最近在找工作,所以对招聘信息比较上心。昨天突然想到用python爬虫爬取招聘要求,提取关键词绘制词云图,看看哪些要求比较重要。

python版本号:3.6.3
完整代码的github地址:https://github.com/AIjugg/zcc_wordcloud

效果图

python爬取boss直聘绘制招聘要求词云图
python爬取boss直聘绘制招聘要求词云图

爬虫部分

解析网页用的是BeautifulSoup

由于boss直聘的网页信息量非常大,因此寻找需要的元素相当地费劲,一个是岗位详情的url,里面有我需要的岗位要求,还有一个是当前网页下一页的url。

具体的做法是先将当前页的所有岗位的url加入到一个list中,再进入下一页,如此循环。代码中我一共获取了三页的岗位url。

然后就是遍历岗位url,将读取的岗位要求写入到指定的txt中。这里可以进一步改进,不需要写txt,毕竟写文件的效率较低。

需要注意的是,boss直聘官网会限制爬虫,同一个ip访问速度太快就会跳出验证码限制访问。我暂时没有什么好的方法解决这个问题,以后有兴趣再来研究一下吧。

词云图的生成

在我的上一篇博客中详细说明了词云图函数中参数的作用。这里的屏蔽词就挑那些不重要的、你不需要的词语就好了。

代码使用说明

直接运行main.py文件即可,可以自己改一些入参。背景图片、txt记录文本、生成的词云图被分别放到了三个不同的文件夹。