资讯类网站增量式爬虫
一:网站增量式爬虫流程图
1)前提是A、B、C网站分类下历史数据已经爬取过
2)A、B、C网站下的同一网站下分类数据存储的表名有规律
二:代码实现
1)init初始化方法中添加基本的请求伪装信息
2)抓取方法
1、第一层循环判断分类下是否有数据更新
2、第二层循环判断分类下列表中数据是否都符合抓取时间,遇到不符合抓取的跳出该分类
3)文章的结构构建与img_url生成json字符串的处理
1)前提是A、B、C网站分类下历史数据已经爬取过
2)A、B、C网站下的同一网站下分类数据存储的表名有规律
1)init初始化方法中添加基本的请求伪装信息
2)抓取方法
1、第一层循环判断分类下是否有数据更新
2、第二层循环判断分类下列表中数据是否都符合抓取时间,遇到不符合抓取的跳出该分类
3)文章的结构构建与img_url生成json字符串的处理