GooSeeker初使用之爬取数据

以抓取2345天气预报上的天气数据为例简单描述一下使用GooSeeker抓取数据的方法,具体步骤如下:
一、下载安装GooSeeker
到官网中下载GooSeeker:下载地址

点击“下载爬虫”来下载GooSeeker的安装包,新用户需要在集搜客网站上注册并登录账号后才能下载。下载并安装好之后,登录集搜客软件。
GooSeeker初使用之爬取数据
二、爬取网页数据
要爬取网页数据,需要定义爬取规则。下面简要描述一下定义爬取规则的步骤:

1、进入GooSeeker后先在“网址栏”中输入要访问的网址,然后点击右上角的定义规则
GooSeeker初使用之爬取数据
2、命名任务
在工作台“命名任务”标签下输入任务名,通过点击查重来检查该任务名是否可用;在“页面地址”栏中输入要访问的网址。
GooSeeker初使用之爬取数据
3、新建整理箱
在工作台的“创建规则”标签下,点击“新建”来创建一个整理箱。在弹出的窗口中输入整理箱名,这里我把它命名为“重庆天气”。
GooSeeker初使用之爬取数据
4、进行内容映射
当你在“浏览器”窗口中点击想要获取的内容时,左下方的网页标签中就会显示其在HTML中的结点位置,比如现在要获取“日期”数据,就点击“日期”那个区域,这时候就会自动定位“日期”在HTML中结点的位置(DIV结点)。展开该节点,因为“日期”是一个text,所以找到结点下的text标签右键->内容映射->新建抓取内容(注意是对text标签进行映射)。
GooSeeker初使用之爬取数据
在弹出的窗口中给要抓取的内容命名,因为整理箱中必须有一个是“关键内容”,在这里我就把日期设为“关键内容”吧,将其勾选为“关键内容”。
GooSeeker初使用之爬取数据
使用同样的方法做“最高气温”、“最低气温”、“天气”、“风向风力”、“空气质量指数”的内容映射,映射完成后的效果如下所示。
GooSeeker初使用之爬取数据
5、对样例进行复制
首先先在工作台的“创建规则”标签下选中整理箱(这里我应该选中“重庆天气”),然后勾选“样例复制管理”中的“启用”。

分别找到第一行和第二行天气信息对应的节点。右键第一行天气信息对应结点,在对应的标签上右键选择“样例复制映射->第一个”。
GooSeeker初使用之爬取数据
同样,右键第二行天气信息对应结点,在对应的标签上右键选择“样例复制映射->第二个”。
完成样例映射后的效果如下所示:
GooSeeker初使用之爬取数据
6、保存爬取规则
点击右上角的“存规则”来保存刚刚制作的采集规则,保存成功后点击右上角的“爬数据”。
GooSeeker初使用之爬取数据
之后会跳转到DS 打数机的界面,此时就开始爬数据了。
GooSeeker初使用之爬取数据
在左上角的文件->存储路径下可以指定爬取数据的存储位置。
GooSeeker初使用之爬取数据
爬取结束后就可以在指定的存储路径下看到相应的XML文件了
GooSeeker初使用之爬取数据

但是,我们发现这爬取的仅仅是一个月的天气数据,而天气数据有多个月。所以下面来解决爬数据时的翻页问题。

在工作台爬虫路线标签下点击“新建”
GooSeeker初使用之爬取数据
勾选“连续翻页”
GooSeeker初使用之爬取数据
在网页上点击用于翻页的“上一月”,然后在网页标签中找到其对应的结点,右键选择“翻页映射–作为翻页区–线索1”进行线索定位映射;再在该结点下的text结点上右键选择“翻页映射–作为翻页记号”。完成这步操作后的"爬虫路线"如下所示。
GooSeeker初使用之爬取数据
再次点击“存规则”来保存采集数据规则,然后开始爬数据。此时在指定的存储路径下就会包含多个XML文件了。
GooSeeker初使用之爬取数据