如何抓取找到的页面上的外部链接?
问题描述:
我用他们的wiki来安装nutch的例子。我能够轻松地抓取从dmoz中拉出的多个页面。但是,有没有可以配置来抓取它在页面上找到的外部链接,或者将这些外部链接写入下一个要抓取的文件?如何抓取找到的页面上的外部链接?
什么是最好的方式来跟踪页面上的链接索引该页面以及与nutch?如果我通过python执行bin/nutch,我可以找回它找到的所有外部链接,并创建一个新的爬行列表再次运行?你会怎么做?
答
首先,确保参数'db.ignore.external.links'设置为false。此外,在“regex-urlfilter.txt”文件中,为您希望抓取的外部链接添加规则,或者添加+.
作为最后一条规则。规则+.
将使抓取工具遵循所有链接。如果您使用最后一个选项,请注意您冒险爬行所有Web!
非常感谢。我将使用正则表达式filter.txt文件来获得最佳结果。 – Nathan 2010-10-27 17:38:53