Hadoop之Join时 DataJoin软件包问题
在做HDFS多文件Join时通过监控job成功启动并且mapper执行完毕,但reduce总是不能执行完成,进度卡在66.66%。mapper输出是想要的格式,而且小规模输入数据测试时整个job能成功完成。在查看未完成reduce的状态,发现key不变,“numOfValues”的值却一直在增大
如下格式错误:
key...:1294823 > reduce;
key...:2346134> reduce;
..........
可是reducer中没什么会导致死循环的地方
于是就觉得应该是碰到了死循环。网上查询了下说是DataJoinReducerBase里面的以下源代码引起的:
这块代码迭代arg1参数(集合类型的),但这个arg1的大小不能超过this.maxNumOfValuesPerGroup,否则就死循环。因为continue之前并没有从迭代器中取数据的操作,取数据的部分偏偏又执行不到。
其实解决起来也简单,因为
只要我们在初始化job时,设置datajoin.maxNumOfValuesPerGroup为一个很大的值就好了。具体大小是大于一个group key所对应value的最大个数。不确定到底有多大,干脆设置为Long.MAX_VALUE。
上面说的是Reduce死循环出现的原理;
下面是解决方法:
给Job设置mapred.textoutputformat.separator值;
即:
import org.apache.hadoop.mapred.JobConf;
Configuration conf = getConf();
JobConf job = new JobConf(conf, DataJoin.class);
job.setLong("datajoin.maxNumOfValuesPerGroup", Long.MAX_VALUE);
通过以上设置,再次测试,顺利通过!