IOExeption使用Nutch
问题描述:
爬行时,有一天,在最后使用Nutch(1.4)...爬行后,我得到异常坏坏以下:IOExeption使用Nutch
.
.
.
-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1204)
at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1240)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1213)
.
.
。
我有20个新闻网站和Nutch的输入参数是:深度3和TOPN -1 我在我的Linux和大约RAM 4GB的根目录下有足够的空间我怎样才能解决这个问题呢? 谢谢。
答
我认为你可能有这样的问题:http://wiki.apache.org/nutch/NutchGotchas
答案只要指出:
我们找到解决的情况是,你最有可能出的磁盘空间接听/ TMP。考虑使用另一个位置,或者可能为hadoop.tmp.dir(可以在nutch-site.xml中设置)设置另一个分区,并为大型瞬态文件或使用Hadoop集群提供足够的空间。
我已经指定了很大的空间给我的/ tmp,但没有任何改变,并发生同样的异常。是否有任何错误配置? – hadi 2012-02-18 13:17:33
我不确定还有什么可能是错的,但是你能确保你还没有用完空间吗?查看tmp文件夹中有多少数据,并确认您没有超出您指定的空间。 – Kiril 2012-02-18 22:24:04
是的,我已经指定了大约100GB的Linux空间 – hadi 2012-02-19 12:16:21