内存溢出问题的解决方案

在大数据开发测试时，可以通过分区或分桶采样的方式。

分区针对的是固定日期，而分桶采样则侧重随机，更具有代表性。由于第一次是全量抽取数据，所以日期分区下的数据非常庞大，此时使用分桶来进行采样测试可以大幅提升效率。

在select之前可以添加Explain，先来查看查询执行计划（不是实际运行mapreduce)，可以看到分桶采样已经生效，提高了开发和测试效率。

内存溢出问题的解决方案

执行select语句进行抽样时发现报错（处理的数据量大时都可能报此错误）：

内存溢出问题的解决方案

解决方法：

在执行SQL前，设置：

set hive.exec.max.dynamic.partitions.pernode=10000;
set hive.exec.max.dynamic.partitions=100000;
set hive.exec.max.created.files=150000;

一般来说，遇到因硬件配置而导致的内存溢出问题，有两个思路：

1. 硬件内存充足的情况：

修改参数： mapreduce.map.java.opts、mapreduce.reduce.java.opts、

mapreduce.map.memory.mb、mapreduce.reduce.memory.mb。

增加内存：-Xmx4096m，值根据配置调整。

注意：

mapreduce.map.java.opts一定要小于mapreduce.map.memory.mb；

mapreduce.reduce.java.opts一定要小于mapreduce.reduce.memory.mb，格式-Xmx4096m。

以map任务为例，Container其实就是在执行一个脚本文件，而脚本文件中，会执行一个 Java 的子进程，这个子进程就是真正的 Map Task，mapreduce.map.java.opts 其实就是启动 JVM 虚拟机时，传递给虚拟机的启动参数，而默认值 -Xmx200m 表示这个 Java 程序可以使用的最大堆内存数，一旦超过这个大小，JVM 就会抛出 Out of Memory 异常，并终止进程。而mapreduce.map.memory.mb设置的是 Container 的内存上限，这个参数由 NodeManager 读取并进行控制，当 Container 的内存大小超过了这个参数值，NodeManager 会负责 kill 掉 Container。

也就是说，mapreduce.map.java.opts一定要小于mapreduce.map.memory.mb，mapreduce.reduce.java.opts同mapreduce.map.java.opts一样的道理。

2. 硬件内存不足的情况

关闭Map Join后再次尝试，但过程会比较慢。也可以通过where条件，按照日期分批进行清洗转换。

内存溢出问题的解决方案

相关推荐