爬虫去重：两种去重方法、增量爬虫scrapy案例：nba

1、cmd(scrapy startproject nba)创建好项目之后,创建spider文件
配置setting文件
爬虫去重：两种去重方法、增量爬虫scrapy案例：nba 2、创建好spider类

2、判断要不要使用中间件selenium，如果页面是ajax请求，js代码，需要点击等要使用selenium。会返回html给spider

然后后测试一下
3、如果不需要seleniu也要先测试
爬虫去重：两种去重方法、增量爬虫scrapy案例：nba
4、分页，想办法获取最大页码，最简单的办法就是在url页码数字输入最大数

5、获取数据

去重方法1：利用redis去重，爬取过的url不获取

6、获取详情页信息
爬虫去重：两种去重方法、增量爬虫scrapy案例：nba
7、pipelines
配置：

写pipeline.py

第二种去重方法

爬虫去重 ： 两种去重方法、增量爬虫scrapy案例：nba

相关推荐

爬虫去重：两种去重方法、增量爬虫scrapy案例：nba