站在巨人的肩膀上做数据分析-实习僧网站分析
爬虫参考:**“实习僧”网站字体加密
数据处理及分析参考:实习僧网站数据分析
我只爬取了关键字为‘数据分析’的前20页数据,作为练习。
预处理后的字段有:
1. 在招职位数量
各城市招聘职位数量:
各城市职位数量占比:
职位数量最多的五个城市占总数量的比重:
因为我在成都,所以看看成都在招数量最多的五家公司及其招聘职位数:虽然数据量本身小了些,但是依然求职艰难
2. 薪资情况
先看日均薪酬:
以城市为单位查看日均薪资:
然后看日均薪资最高的10个城市:发现最高的不是北上广反而是青岛(羡慕脸),然而成都在18个城市里连前十都没进。。成都人买买买的钱都是哪来的。。。
在招职位数最多的十个城市的日均薪资排名:
学历与薪资的关系:
行业与薪资关系
先看行业字段的格式:需要预处理
字段分割:
计算出每列不同行业的记录数
然后把这几列的数据加起来,得到总数
再取top15
得到招聘数量最多的15个行业:其中有些字段含义类似还可进一步处理,明显可以看出互联网行业需求最高,其次是金融业
公司-职位数量-日薪
agg代表对前面做什么操作