爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba

1、cmd(scrapy startproject nba)创建好项目之后,创建spider文件
配置setting文件
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba2、创建好spider类
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba
2、判断要不要使用中间件selenium,如果页面是ajax请求,js代码,需要点击等要使用selenium。会返回html给spider
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba
然后后测试一下
3、如果不需要seleniu也要先测试
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba
4、分页,想办法获取最大页码,最简单的办法就是在url页码数字输入最大数
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba
5、获取数据
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba
去重方法1:利用redis去重,爬取过的url不获取
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba

6、获取详情页信息
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba
7、pipelines
配置:
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba
写pipeline.py
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba
第二种去重方法
爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba