IOExeption使用Nutch

问题描述:

爬行时,有一天,在最后使用Nutch(1.4)...爬行后,我得到异常坏坏以下:IOExeption使用Nutch

. 
. 
. 

-finishing thread FetcherThread, activeThreads=0 
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0 
-activeThreads=0 
Fetcher: java.io.IOException: Job failed! 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252) 
    at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1204) 
    at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1240) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
    at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1213) 
. 
. 

我有20个新闻网站和Nutch的输入参数是:深度3和TOPN -1 我在我的Linux和大约RAM 4GB的根目录下有足够的空间我怎样才能解决这个问题呢? 谢谢。

我认为你可能有这样的问题:http://wiki.apache.org/nutch/NutchGotchas

答案只要指出:

我们找到解决的情况是,你最有可能出的磁盘空间接听/ TMP。考虑使用另一个位置,或者可能为hadoop.tmp.dir(可以在nutch-site.xml中设置)设置另一个分区,并为大型瞬态文件或使用Hadoop集群提供足够的空间。

+0

我已经指定了很大的空间给我的/ tmp,但没有任何改变,并发生同样的异常。是否有任何错误配置? – hadi 2012-02-18 13:17:33

+0

我不确定还有什么可能是错的,但是你能确保你还没有用完空间吗?查看tmp文件夹中有多少数据,并确认您没有超出您指定的空间。 – Kiril 2012-02-18 22:24:04

+0

是的,我已经指定了大约100GB的Linux空间 – hadi 2012-02-19 12:16:21