有没有办法用不同的配置文件运行NUTCH?
问题描述:
我想知道是否可以使用不同的配置文件集来运行相同的NUTCH实例?我无法看到参数列表中的任何选项允许这样的事情。有没有办法用不同的配置文件运行NUTCH?
我想只在一台计算机上运行NUTCH,我不想复制nutch实例。
有谁知道这样做的简单方法,还是我需要修改bin/nutch脚本来完成它。
谢谢。
答
您可以使用Unix符号链接并在脚本中更改此链接。就像,如果你有regex-urlfilter-conf_A.txt和regex-urlfilter-conf_B.txt。在脚本中,开始Nutch的面前:
为CONF答:
ln -sf $NUTCH_FOLDER/conf/regex-urlfilter-conf_A.txt $NUTCH_FOLDER/conf/regex-urlfilter.txt
为CONF B:
ln -sf $NUTCH_FOLDER/conf/regex-urlfilter-conf_B.txt $NUTCH_FOLDER/conf/regex-urlfilter.txt
我已经阅读之前,我相信这是使用子目录只要。我正在寻找一种方式来指定当我调用bin/nutch时使用哪些配置。除非我错过了某些东西。 – breakdown1986 2012-03-13 13:40:22
@ breakdown1986我刚试过。它不仅适用于子文件夹,您可以将配置文件放在任何地方,并使用NUTCH_CONF_DIR让nutch知道它所在的位置。我想这就是你要找的,让我知道你是否需要帮助! – javanna 2012-03-13 13:53:20
嗨javanna,我想用两个不同的设置使用相同的nutch实例来抓取。例如,我需要爬取两个不同的网站,并使用solr分别索引它们。我正在尝试编写一个shell脚本来自动执行此操作。因此我需要2套配置文件,所以在我的shell脚本中,我可以告诉nutch使用这两种不同的设置。那有意义吗 ?? – breakdown1986 2012-03-13 14:00:26