利用forenose前嗅数据采集器爬取网页数据

采集新浪体育(http://match.sports.sina.com.cn/football/opta_rank.php?dpc=1
球队积分榜及球员信息
前嗅是一个爬虫软件,可以从网页上爬下大量的数据,以采集新浪体育
http://match.sports.sina.com.cn/football/opta_rank.php?dpc=1
球队积分榜及球员信息为例,记录爬下数据的过程。
一、 软件下载
免费版下载地址:http://www.forenose.com/download.html
免费版不限功能,每天最多可采集1000条数据。
二、频道配置
新建频道,在频道配置里面输入采集的地址:
http://match.sports.sina.com.cn/football/opta_rank.php?dpc=1
利用forenose前嗅数据采集器爬取网页数据
三、 模板配置
新建频道后,软件默认添加了两个模板,一个是链接抽取,一个是数据抽取。
利用forenose前嗅数据采集器爬取网页数据
链接抽取:当需要采集的页面有需要的链接,就加上链接抽取
数据抽取:当页面有我们需要采集的数据时,加上数据抽取
比如http://match.sports.sina.com.cn/football/opta_rank.php?dpc=1 这个页面,积分榜里面的球队名字都是链接,可以点击去下一级页面看该球队信息,所以就需要为这个页面加上一个链接抽取。
利用forenose前嗅数据采集器爬取网页数据
点击球队名称进入球队信息页面后,例如切尔西队:
http://match.sports.sina.com.cn/football/team.php?id=60&dpc=1
如下图,需要为页面添加一个链接抽取和数据抽取。
利用forenose前嗅数据采集器爬取网页数据
点击球员例如库尔图瓦进入球员信息页面:
http://match.sports.sina.com.cn/football/player.php?id=60772
利用forenose前嗅数据采集器爬取网页数据
最后有三个模板,如下图:
利用forenose前嗅数据采集器爬取网页数据
四、 地址过滤、关联模板
1. 地址过滤
点击采集预览,可以看到页面里面有很多不需要的链接,采用地址过滤留下需要的链接。
找到需要的链接,地址一般都比较相似,用通配符代替变化的地方。刷新链接里选择前面为该页面建立好的链接抽取。保存。重新测试即可得到该页面需要的地址。
利用forenose前嗅数据采集器爬取网页数据
利用forenose前嗅数据采集器爬取网页数据
同样的,在球队信息页面过滤掉不需要的地址,留下需要的球员地址。在采集预览中,双击球队链接条目进入球队信息页面。
利用forenose前嗅数据采集器爬取网页数据
利用forenose前嗅数据采集器爬取网页数据
2. 模板关联、示例地址
要为每一个模板添加一个示例地址,默认模板1的示例地址软件自动的填上去了,就是在频道配置的地址。示例地址的作用就是为了方便以后在页面上选值,为软件提供一个模板。
利用forenose前嗅数据采集器爬取网页数据
每一个链接抽取都需要关联一个模板
利用forenose前嗅数据采集器爬取网页数据
利用forenose前嗅数据采集器爬取网页数据
五、 表单配置
配置表单的目的就是确定需要采集哪些值,相当于在表单中新建了字段,以后采集的数据为这些字段的属性。
因为我们需要将积分榜和球员的信息都采集下来,所以需要新建两个表单:积分榜和球员
球员表单
利用forenose前嗅数据采集器爬取网页数据
在右边添加字段,如下图,hk字段是网页主键,为了标识数据的唯一性,没有其他作用。字段属性要选中图中的三项。
利用forenose前嗅数据采集器爬取网页数据
添加其他的字段如球员姓名、年龄等。
利用forenose前嗅数据采集器爬取网页数据
最终字段添加完成,保存。
利用forenose前嗅数据采集器爬取网页数据
新建积分榜表单也是同样的过程。
利用forenose前嗅数据采集器爬取网页数据
六、 关联表单、数据匹配
1. 关联表单
前面新建的数据抽取就是用来识别数据的,所以要为每个数据抽取关联表单。
利用forenose前嗅数据采集器爬取网页数据
利用forenose前嗅数据采集器爬取网页数据
关联表单后就可以看到该表单的全部字段,接下来就用这些字段来匹配示例页面的字段。
2. 数据匹配
积分榜数据匹配:选中某个字段,如rank(排名)字段。按住Ctrl加鼠标左键选择排名,(按Shift加鼠标左键可以扩选)保存,再进行下一个字段匹配,以此类推。匹配积分榜所有字段。
利用forenose前嗅数据采集器爬取网页数据
匹配完成后,右键数据抽取积分榜,模板预览及可查看匹配结果。
利用forenose前嗅数据采集器爬取网页数据
球员数据的抽取类似。
利用forenose前嗅数据采集器爬取网页数据
利用forenose前嗅数据采集器爬取网页数据
六、 数据库
1. 打开数据库
软件提供了几种存储数据的数据库连接。自带的有ForeLib数据库,不需要配置任何地方,选择好数据路径打开即可。
利用forenose前嗅数据采集器爬取网页数据
2. 选择数据表
选择爬虫表单,创建表,可以将积分榜和球员一起爬下来,也可以单个爬下来。
利用forenose前嗅数据采集器爬取网页数据
利用forenose前嗅数据采集器爬取网页数据
七、 数据采集
1. 清空日志
刷新、清空日志、再刷新:
利用forenose前嗅数据采集器爬取网页数据
2. 采集策略配置
根据计算机性能配置配置线程数目。
利用forenose前嗅数据采集器爬取网页数据
3. 数据采集
点击开始,采集即开始。
利用forenose前嗅数据采集器爬取网页数据
九、 数据浏览及导出
在数据浏览页面可以看到采集的数据表单,可以导出为csv格式文件。
利用forenose前嗅数据采集器爬取网页数据
利用forenose前嗅数据采集器爬取网页数据
利用forenose前嗅数据采集器爬取网页数据
利用forenose前嗅数据采集器爬取网页数据
十、 完成
利用forenose前嗅数据采集器爬取网页数据
利用forenose前嗅数据采集器爬取网页数据