100%教会爬取全国保险业务员微信号码和拉勾网招聘数据

下方两幅图是最近爬取某保险网站和拉勾的招聘数据,大家随意感受一下


截图部分保险业务员微信二维码

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


截图部分拉勾网爬取信息

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


本文主要讲爬取某保险网站所有卖保险的人的微信号,个人网站,所在地区、所属保险公司等信息,代码已上传到QQ群(627714866


开发环境:

乌班图、pycharm、mysql、redis、mongodb

爬虫技术:

requests、redis加密对数据去重、xpath、os模块、保存csv、mysql、面向对象写法


废话不多说,直接上代码

1、pymongo、pymysql、redis, hashlib用于对redis字段加密

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


2、创建一个类,并初始化数据(网站是post请求,需要带data)

headers、post请求数据、初始化csv文件、创建数据库连接对象(具体技术不明白的请查阅相关资料)

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


3、最大重复请求3次,增加程序健壮性

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


4、获取数据列表

(具体提取方式请根据post请求URL查看前端代码)

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


5、返回con_list列表、下一页URL和data数据

(注意:所有URL都一样,不一样的是传的data数据,主要还是构造data数据)

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


6、获取展业证号

因为展业证号对应的详情页有多种页面结构,所以需要根据页面中特有的信息做一些判断,选择合适的提取方式提取

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


7、构造增量式爬虫

利用hashlib对提取的名字信息生成哈希加密指纹,并利用redis的集合数据类型,保存加密字段,如果该加密字段能sadd保存到redis,则返回值是1,如果不能sadd保存,则返回值是0(作用:实现根据姓名字段判断到数据库是执行更新操作还是增加操作,也即增量含义)

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


8、保存mysql

根据res返回值,是1还是0,对应执行增加insert操作和更新update操作

同时分表存储,方式有点lowb,判断字段而已,

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


9、保存mongodb

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


10、保存csv和构造保存二维码图片命名格式

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


11、启动程序

遍历两个条件,公司名称和信用等级,只做示意,公司取两个,信息用等级取2个,next_url为初始URL

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据



后期爬取拉勾数据代码也已经实现,会继续更新


本文代码和一些python教程已经上传到QQ群(627714866),有兴趣的同学可以加群下载,本文只限于技术交流,请勿用于商业用途

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据



python爬虫人工智能大数据公众号

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


本公众号长期提供各种免费视频学习资源,欢迎与作者相互探讨学习

                        

公众号回复“资料”获取500GB相关****,部分教程分类和截图如下:

python、django 、flask、数据分析、爬虫、运维、大数据、量化金融、机器学习、深度学习、自然语言处理、人工智能、电子书

0、python入门教程

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


1、Django教学网站项目实战视频,带xadmin后台和源码:

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


2、Flask项目实战视频和源码:

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


3、爬虫项目实战视频和源码:

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据

4、数据分析项目实战和源码:

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据


5、全部资料

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据