Python学习笔记(4)翻页采集列表

**一、操作步骤。京东的列表网页有很多页，爬虫能不能自动翻页，采集每一页的数据?当然可以，做好翻页采集规则，爬虫就能自动翻页采数据。下面以京东列表页作为案例，操作步骤下：

Python学习笔记(4)翻页采集列表

二、案例规则+操作步骤

本案例是在上一篇文章《采集列表数据》的基础上，直接增加翻页设置，所以，前三步操作就不重复讲了，下面就直接讲第四步操作。

第四步：设置翻页

包括两个步骤：1. 设置翻页区 2. 设置翻页记号

4.1，设置翻页区

在当前页面，点击翻页区，发现整个翻页区变黄了，而且，在下面的DOM窗口，光标自动定位到了SPAN节点，右击这个节点，选中翻页映射→作为翻页区→新建线索。

Python学习笔记(4)翻页采集列表

4.2，设置翻页记号

此时，工作台自动切换到了爬虫路线。不用理会。继续在当前网页，点击翻页按钮“下一页”。在下面的DOM区，光标自动定位到了A节点，点开A节点，寻找text节点，找到后，右击这个text节点，选中翻页映射→作为翻页记号。

Python学习笔记(4)翻页采集列表

第五步：存规则，抓数据

5.1，点击G浏览器上的“存规则“按钮，保存规则。点击浏览器上的“爬数据“按钮，或者到打数机，启动采集，在DS打数机里看翻页是否成功，翻页采集成功的话，在本地DataScraperWorks文件夹中会生成多个xml文件，