如何抓取找到的页面上的外部链接？

问题描述：

我用他们的wiki来安装nutch的例子。我能够轻松地抓取从dmoz中拉出的多个页面。但是，有没有可以配置来抓取它在页面上找到的外部链接，或者将这些外部链接写入下一个要抓取的文件？如何抓取找到的页面上的外部链接？

什么是最好的方式来跟踪页面上的链接索引该页面以及与nutch？如果我通过python执行bin/nutch，我可以找回它找到的所有外部链接，并创建一个新的爬行列表再次运行？你会怎么做？

答

首先，确保参数'db.ignore.external.links'设置为false。此外，在“regex-urlfilter.txt”文件中，为您希望抓取的外部链接添加规则，或者添加+.作为最后一条规则。规则+.将使抓取工具遵循所有链接。如果您使用最后一个选项，请注意您冒险爬行所有Web！

非常感谢。我将使用正则表达式filter.txt文件来获得最佳结果。 – Nathan 2010-10-27 17:38:53