Hive MapReduce异常Job initialization failed: java.io.IOException: Split metadata size exceeded

namenode： HDFS的文件元信息，包括位置、大小、分块信息等，保存在NameNode的内存中的，每个对象大约占用150个字节。

问题描述：hive计算时，数据输入文件的索引总量超过集群限制（10M），导致无法进行计算，job抛错

源码剖析：hive.index.compact.query.max.entries：使用压缩索引查询时能读到的最大索引项数，默认是10000000；负值代表无穷大；

问题示例：

报错截图：MapReduce异常Failure Info:Job initialization failed: java.io.IOException: Split metadata size exceeded

Hive MapReduce异常Job initialization failed: java.io.IOException: Split metadata size exceeded

原因解析：需要查询近180天中间表(源表:edw.tableA)数据，数据量180个分区，每个分区720个文件，每个文件大小256G，共计180*720=129600个文件占用namenode内存 129600*150≈18.5M 已超过hive默认配置

解决办法：

1. 输入合并。即在Map前合并小文件

配置map输入合并（因中间表已经生成，所以采取输入前合并）

-- 每个Map最大输入大小，决定合并后的文件数
set mapred.max.split.size=512000000;
-- 一个节点上split的至少的大小，决定了多个data node上的文件是否需要合并
set mapred.min.split.size.per.node=100000000;
-- 一个交换机下split的至少的大小，决定了多个交换机上的文件是否需要合并
set mapred.min.split.size.per.rack=100000000;
-- 执行Map前进行小文件合并
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

添加参数后文件数量减半占用namenode内存小于10M，任务正常启动，调试成功。

2. 输出合并。即在输出结果的时候合并小文件（本次未做实践）参考参数如下：

set hive.merge.mapfiles = true #默认false， true时在MapReduce的任务结束时合并小文件
set hive.merge.mapredfiles = true #在Map-only的任务结束时合并小文件，map阶段Hive自动对小文件合并。
set hive.merge.size.per.task = 256*1000*1000 #合并文件的大小
set hive.merge.smallfiles.avgsize=16000000 #当输出文件的平均大小小于该值时，启动一个独立的map-reduce任务进行文件merge

Hive MapReduce异常Job initialization failed: java.io.IOException: Split metadata size exceeded

相关推荐