ForeSpider数据采集软件之链接抽取

前嗅ForeSpider数据采集软件是一款通用性互联网数据采集软件，软件几乎可以采集互联网上所有公开的数据，通过可视化的操作流程，从建表、过滤、采集到入库一步到位。同时软件内置了强大的爬虫脚本语言。如果有通过可视化采集不到的内容，都可以通过简单几行代码，实现强大的脚本采集。

很多用户说可视化的操作太简单，一定要看软件脚本的教程，所以今天给大家出一个爬虫脚本的链接抽取教程，满足用户更多的需求。

案例使用的是大众点评网，要抽取下面的翻页链接。

第一步先看每一页的链接地址有没有规律。

ForeSpider数据采集软件之链接抽取

【第二页】

ForeSpider数据采集软件之链接抽取

【第三页】

可以看到每一页的链接地址只有最后一个数字是不一样的，分别是对应的页码数，我们可以通过拼接的方式得到所有翻页的链接地址。下面写了拼接第二页链接地址的脚本：

ForeSpider数据采集软件之链接抽取

第一行代码：定义一个url类的变量u

第二行代码：u.urlname是网页的链接地址，为其赋值

第三行代码：u.tmplid是这个链接抽取所要关联的模板id，这里是翻页，所以关联自身模板

第四行代码：这个链接抽取所对应的频道id

第五行代码：u.title是链接标题，为其赋值

第六行代码：将所拼接的链接添加到最后的结果中

上面只是解释每一行代码的作用，取到的只是第二页的链接，下面给大家放完整的内容：

ForeSpider数据采集软件之链接抽取

通过FindClass的方式，从源码中得到总页数，然后使用for循环拼接每一页的链接。一共才用了12行（其中还包含了两行注释）就得到了自己想要的链接，是不是非常的简单呢，希望大家多看帮助文档，很多问题在帮助文档里就有了答案（偷偷告诉你我也经常遇到不会的然后去看文档）。

前嗅ForeSpider是一款非常简单好用的通用型数据采集软件，操作简单功能强大的同时还保证了采集速度，完全可以满足企业级用户需求。