Python学习笔记(3)采集列表数据

一、操作步骤

采集列表时，可以看到多条结构相同的信息，我们把一条信息称为一个样例，例如，表格中的每一行就是一个样例，又如，京东搜索列表中的每个商品也是一个样例。具有两个样例以上的列表网页，做样例复制就能把整个列表都采集下来。下面京东列表页为案例，操作步骤下：

Python学习笔记(3)采集列表数据

二、案例规则+操作步骤

样本网址：https://search.jd.com/Search?keyword=小米&enc=utf-8&pvid=6a1e1a162bff4eaba55dfcdef7029257
采集内容：每一个商品的标题，价格，评论数，店铺名称

第一步：打开网页

1.1，打开GS爬虫浏览器，输入上述样本网址并Enter，加载出网页后再点击网址输入栏后面的“定义规则”按钮，可以看到一个浮窗显示出来，称为工作台，在上面定义规则；

1.2，在工作台中输入主题名，可以点击“查重”看看名字是否被占用。

Python学习笔记(3)采集列表数据

第二步：标注信息

2.1，在浏览器窗口双击要采集的内容，在弹出小窗中输入标签名，打勾确认或Enter，即完成了一个标注操作。首次标注还要输入整理箱名称。这也是标签与网页信息建立映射关系的过程。

2.2，重复上一步骤，对其他信息进行标注。

Python学习笔记(3)采集列表数据

第三步：样例复制

3.1，点击第一个样例里的任一内容，可以看到，在下面的DOM窗口，光标自动定位到了一个节点，右击这个节点，选择样例复制映射→第一个。

Python学习笔记(3)采集列表数据

3.2，然后，点击第二个样例里的任一内容，同样，在下面的DOM窗口，光标自动定位到了一个节点，右击这个节点，选择样例复制映射→第二个。

Python学习笔记(3)采集列表数据

这样就完成了样例复制映射。

注意：有时样例复制的操作没有错误，但是测试后，只采集到一条数据。问题多半出在整理箱的定位方式上。整理箱默认的定位方式是“偏ID”，可是京东列表网页的整理箱定位方式一般要选”绝对定位“。

Python学习笔记(3)采集列表数据

第四步：存规则，抓数据

4.1，规则测试成功后，点击“存规则”；

4.2，点击“爬数据”，弹出DS打数机，开始抓取数据。

4.3，采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中，可更改存储路径，详情见文章《查看数据结果》。