GooSeeker初使用之爬取数据

以抓取2345天气预报上的天气数据为例简单描述一下使用GooSeeker抓取数据的方法，具体步骤如下:
一、下载安装GooSeeker
到官网中下载GooSeeker:下载地址

点击“下载爬虫”来下载GooSeeker的安装包，新用户需要在集搜客网站上注册并登录账号后才能下载。下载并安装好之后，登录集搜客软件。
GooSeeker初使用之爬取数据
二、爬取网页数据
要爬取网页数据，需要定义爬取规则。下面简要描述一下定义爬取规则的步骤：

1、进入GooSeeker后先在“网址栏”中输入要访问的网址，然后点击右上角的定义规则
GooSeeker初使用之爬取数据
2、命名任务
在工作台“命名任务”标签下输入任务名，通过点击查重来检查该任务名是否可用；在“页面地址”栏中输入要访问的网址。

3、新建整理箱
在工作台的“创建规则”标签下,点击“新建”来创建一个整理箱。在弹出的窗口中输入整理箱名，这里我把它命名为“重庆天气”。
GooSeeker初使用之爬取数据
4、进行内容映射
当你在“浏览器”窗口中点击想要获取的内容时，左下方的网页标签中就会显示其在HTML中的结点位置，比如现在要获取“日期”数据，就点击“日期”那个区域，这时候就会自动定位“日期”在HTML中结点的位置（DIV结点）。展开该节点，因为“日期”是一个text，所以找到结点下的text标签右键->内容映射->新建抓取内容（注意是对text标签进行映射）。
GooSeeker初使用之爬取数据
在弹出的窗口中给要抓取的内容命名，因为整理箱中必须有一个是“关键内容”，在这里我就把日期设为“关键内容”吧，将其勾选为“关键内容”。

使用同样的方法做“最高气温”、“最低气温”、“天气”、“风向风力”、“空气质量指数”的内容映射，映射完成后的效果如下所示。
GooSeeker初使用之爬取数据
5、对样例进行复制
首先先在工作台的“创建规则”标签下选中整理箱（这里我应该选中“重庆天气”），然后勾选“样例复制管理”中的“启用”。

分别找到第一行和第二行天气信息对应的节点。右键第一行天气信息对应结点，在对应的标签上右键选择“样例复制映射->第一个”。
GooSeeker初使用之爬取数据
同样，右键第二行天气信息对应结点，在对应的标签上右键选择“样例复制映射->第二个”。
完成样例映射后的效果如下所示：

6、保存爬取规则
点击右上角的“存规则”来保存刚刚制作的采集规则，保存成功后点击右上角的“爬数据”。
GooSeeker初使用之爬取数据
之后会跳转到DS 打数机的界面，此时就开始爬数据了。

在左上角的文件->存储路径下可以指定爬取数据的存储位置。

爬取结束后就可以在指定的存储路径下看到相应的XML文件了

但是，我们发现这爬取的仅仅是一个月的天气数据，而天气数据有多个月。所以下面来解决爬数据时的翻页问题。

在工作台爬虫路线标签下点击“新建”
GooSeeker初使用之爬取数据
勾选“连续翻页”

在网页上点击用于翻页的“上一月”，然后在网页标签中找到其对应的结点，右键选择“翻页映射–作为翻页区–线索1”进行线索定位映射；再在该结点下的text结点上右键选择“翻页映射–作为翻页记号”。完成这步操作后的"爬虫路线"如下所示。
GooSeeker初使用之爬取数据
再次点击“存规则”来保存采集数据规则，然后开始爬数据。此时在指定的存储路径下就会包含多个XML文件了。

GooSeeker初使用之爬取数据

相关推荐