内存溢出问题的解决方案

在大数据开发测试时,可以通过分区或分桶采样的方式

分区针对的是固定日期,而分桶采样则侧重随机,更具有代表性。由于第一次是全量抽取数据,所以日期分区下的数据非常庞大,此时使用分桶来进行采样测试可以大幅提升效率。

在select之前可以添加Explain,先来查看查询执行计划(不是实际运行mapreduce),可以看到分桶采样已经生效,提高了开发和测试效率。

内存溢出问题的解决方案

执行select语句进行抽样时发现报错(处理的数据量大时都可能报此错误):

内存溢出问题的解决方案

解决方法:

在执行SQL前,设置:

set hive.exec.max.dynamic.partitions.pernode=10000;
set hive.exec.max.dynamic.partitions=100000;
set hive.exec.max.created.files=150000;

 

一般来说,遇到因硬件配置而导致的内存溢出问题,有两个思路:

1. 硬件内存充足的情况:

修改参数: mapreduce.map.java.opts、mapreduce.reduce.java.opts、

                  mapreduce.map.memory.mb、mapreduce.reduce.memory.mb。

                 增加内存:-Xmx4096m,值根据配置调整。

注意:

mapreduce.map.java.opts一定要小于mapreduce.map.memory.mb;

mapreduce.reduce.java.opts一定要小于mapreduce.reduce.memory.mb,格式-Xmx4096m。

 

以map任务为例,Container其实就是在执行一个脚本文件,而脚本文件中,会执行一个 Java 的子进程,这个子进程就是真正的 Map Task,mapreduce.map.java.opts 其实就是启动 JVM 虚拟机时,传递给虚拟机的启动参数,而默认值 -Xmx200m 表示这个 Java 程序可以使用的最大堆内存数,一旦超过这个大小,JVM 就会抛出 Out of Memory 异常,并终止进程。而mapreduce.map.memory.mb设置的是 Container 的内存上限,这个参数由 NodeManager 读取并进行控制,当 Container 的内存大小超过了这个参数值,NodeManager 会负责 kill 掉 Container。

也就是说,mapreduce.map.java.opts一定要小于mapreduce.map.memory.mbmapreduce.reduce.java.opts同mapreduce.map.java.opts一样的道理。

 

2. 硬件内存不足的情况

关闭Map Join后再次尝试,但过程会比较慢。也可以通过where条件,按照日期分批进行清洗转换。