如何使用apache nutch在少数主题上抓取数据?

问题描述:

我使用apache nutch在rosettacode上执行爬行。我不想抓取整个网站,我只想抓取选定的主题(例如,http://www.rosettacode.org/mw/index.php?title=Special%3ASearch&search=Optimization+algorithms&go=Go)。但我无法执行爬网,它向我发出错误说:“没有网址抓取..检查你的种子列表和URL过滤器”。任何人都可以帮我解决这个问题吗?如何使用apache nutch在少数主题上抓取数据?

你给的网址实际上是在注入阶段拒绝。

您必须在regex-urlfilter.txt中指定接受url的正则表达式,或将其保留为+.,这意味着它接受所有网址。

-[?*[email protected]=] 

上述模式拒绝你的网址。既然,它包含=

+0

谢谢..它的工作原理 – Rasika