【Python行业分析】BOSS直聘招聘信息获取
BOSS直聘 搜索界面分析
进入boss官网,按照我们的日常查询习惯,键入关键字、职务类别、查询的城市
基础查询条件
https://www.zhipin.com/job_detail/?query=python&city=101280600&industry=&position=100109
我们看到boss的路由格式为query=关键字&city=城市编码&industry=公司行业&position=职务类别
神器F12
我们再打开F12查看Network,其中有city.json和position.json文件
city.json是记录了所有的城市编码信息
position.json是记录了所有的职务类别编码信息
我们需要查看到更多的数据,点击翻页看看翻页的路由格式是什么样的?
https://www.zhipin.com/c101280600-p100109/?query=python&page=2&ka=page-2
路由格式发生了也变化,对city=101280600&position=100109进行了组合c101280600-p100109
我们在生成路由时也需要按该规则生成,但如果你是顺序访问可以在next标签中获取这个地址
分页标识是由page=2,ka=page-2在后面你会发现,它只是当前新增的查询条件信息
boss对粗的查询是做了返回数据的限制的,我们只能查看到近10页的数据
但你细分查询条件后发现还是会有很多数据的,所以我们需要来拼接更多的条件来获取多的数据
还是需要F12来解决
工作年限
https://www.zhipin.com/c101280600-p100109/e_105/?query=python&ka=sel-exp-105
sel-exp-0
- sel-exp-0 不限
- sel-exp-108 在校生
- sel-exp-102 应届生
- sel-exp-103 1年以内
- sel-exp-104 1-3年
- sel-exp-105 3-5年
- sel-exp-106 5-10年
- sel-exp-107 10年以上
学历要求
https://www.zhipin.com/c101280600-p100109/d_209-e_105/?query=python&ka=sel-degree-209
- sel-degree-0 不限
- sel-degree-209 初中及以下
- sel-degree-208 中专/中技
- sel-degree-206 高中
- sel-degree-202 大专
- sel-degree-203 本科
- sel-degree-204 硕士
- sel-degree-205 博士
薪资要求
https://www.zhipin.com/c101280600-p100109/y_2-d_206-e_105/?query=python&ka=sel-salary-2
- sel-salary-0 不限
- sel-salary-1 3K以下
- sel-salary-2 3-5K
- sel-salary-3 5-10K
- sel-salary-4 10-15K
- sel-salary-5 15-20K
- sel-salary-6 20-30K
- sel-salary-7 30-50K
- sel-salary-8 50K以上
最终的路由格式
查询Python行业内,不同城市、工作年限、学历要求、薪资范围的招聘信息
https://www.zhipin.com/c101280600-p100109/y_2-d_206-e_105/?query=python&page=1
这些过滤条件以及可以为我们筛选出很多照片信息了
那具体招聘信息的信息提取呢?
我们需要什么信息呢?
- 招聘的职位说明
- 职位所在城市
- 发布时间
- 薪资范围
- 工作年限
- 学历要求
- 职务关键字
- 公司名称
- 福利信息
- 职务描述
招聘列表提供的数据
先看看在查询的列表页中有哪些信息
- 招聘的职位说明
- 职位所在城市
- 发布时间
- 薪资范围
- 工作年限
- 学历要求
- 联系人
- 职务关键字
- 公司名称
- 公司融资阶段
- 公司规模
- 福利信息
重点来了,我们肯定需要打开F12,查看下页面源代码,看有没有隐藏信息,好像是并没有
但是我看到了 data-jid 是招聘信息的标识,这个可以为获取数据是去重提供帮助,收下了
那以下信息是我们需要获取的
- 招聘的职位说明
- 职位所在城市
- 发布时间
- 薪资范围
- 工作年限
- 学历要求
- 职务关键字
- 公司名称
- 福利信息
还有个很重要的 岗位要求说明,在后期的招聘分析中是需要的,在列表中并没有,再继续挖掘下,GoGoGo
职务描述
当我们把鼠标停留在招聘信息上时,会弹出职位描述的弹出,真的是意外收获啊
F12走起,可以看到有新的请求发出了
https://www.zhipin.com/wapi/zpgeek/view/job/card.json?jid=201963e14821c43103F73du_FVI~&lid=nlp-2vJ1koSrjDw.search.273
路由所需的参数是jid和lid,正好是我们上面找到的 data-jid 是招聘信息的标识,再回去找下data-lid也是存在的
最终的数据信息
- 招聘的职位说明
- 职位所在城市
- 发布时间
- 薪资范围
- 工作年限
- 学历要求
- 职务关键字
- 公司名称
- 福利信息
- 职务描述
BOSS招聘信息爬取
到此我们需要的信息就全部找到了,点波关注,后面会继续分享 如何爬取这些数据