GookSeeker爬取数据

GookSeeker爬取数据

一、使用gooseeker爬取数据
首先需要下载GooSeeker,通过浏览器在官网中下载,需要注意的是要先注册才能够下载
GookSeeker爬取数据

下载安装好GooSeeker后,此次我要爬取的是天气预报网
在GooSeeker的浏览器导航中输入天气预报网的网址
GookSeeker爬取数据

点击定义规则后会出现如图所示的工作台

GookSeeker爬取数据
在工作台“命名任务”标签下输入任务名,通过点击查重来检查该任务名是否可用

GookSeeker爬取数据

在工作台的“创建规则”标签下,点击“新建”来创建一个整理箱。在弹出的窗口中输入整理箱名,这里我把它命名为“历史天气”
GookSeeker爬取数据

要获取“日期”数据,就点击“日期”那个区域,这时候就会自动定位“日期”在HTML中结点的位置(DIV结点)。展开该节点,因为“日期”是一个text,所以找到结点下的text标签右键->内容映射->新建抓取内容
GookSeeker爬取数据
GookSeeker爬取数据
以同样的规则抓取温度、天气、风力和空气指数,需要注意的是必须勾选一个为关键内容,我在此处勾选的历史天气为关键内容
GookSeeker爬取数据
首先先在工作台的“创建规则”标签下选中整理箱,然后勾选“样例复制管理”中的“启用”。分别找到第一行和第二行天气信息对应的节点。右键第一行天气信息对应结点,在对应的标签上右键选择“样例复制映射->第一个”
GookSeeker爬取数据
点击测试可以得到数据,看看这些数据是否是我们所需要的数据

GookSeeker爬取数据

之后会跳转到DS 打数机的界面,此时就开始爬数据了。
GookSeeker爬取数据
查看数据所保存的路径
GookSeeker爬取数据
然后找到文件所在的位置
GookSeeker爬取数据
此时可以发现,我爬取的仅仅只是一个月的数据,但是当爬取多个月的数据时呢?此时就需要翻页了
在爬虫路线中点击新建

GookSeeker爬取数据

勾选连续翻页
GookSeeker爬取数据
在网页上点击用于翻页的“上一月”,然后在网页标签中找到其对应的结点,右键选择“翻页映射–作为翻页区–线索1”进行线索定位映射;再在该结点下的text结点上右键选择“翻页映射–作为翻页记号”。完成这步操作后的"爬虫路线"如下所示。
GookSeeker爬取数据
再次点击“存规则”来保存采集数据规则,然后开始爬数据。此时在指定的存储路径下就会包含多个XML文件了。
GookSeeker爬取数据