资讯类网站增量式爬虫

一:网站增量式爬虫流程图

1)前提是A、B、C网站分类下历史数据已经爬取过

2)A、B、C网站下的同一网站下分类数据存储的表名有规律

资讯类网站增量式爬虫

二:代码实现

1)init初始化方法中添加基本的请求伪装信息

资讯类网站增量式爬虫

2)抓取方法

资讯类网站增量式爬虫

1、第一层循环判断分类下是否有数据更新

资讯类网站增量式爬虫

2、第二层循环判断分类下列表中数据是否都符合抓取时间,遇到不符合抓取的跳出该分类

资讯类网站增量式爬虫

3)文章的结构构建与img_url生成json字符串的处理

资讯类网站增量式爬虫

资讯类网站增量式爬虫

三:多网站的多进程Linux环境下定时任务执行

资讯类网站增量式爬虫

资讯类网站增量式爬虫