Spark的内存管理
spark在执行应用程序时,Spark集群会启动Driver和Executor两种JVM进程
Driver :
创建SparkContext上下文,提交任务,task的分发
Executor:
负责task的计算任务,并将结果返回给Driver,同时需要为需要持久化的RDD提供储存
Driver端的内存管理比较简单,这里内存管理针对是Executor端的内存管理
spark1.6之前使用的是静态内存管理,1.6之后使用的是动态内存管理
spark.memory.useLegacyMode 设置为 true (默认为 false)使用静态内存管理。
静态内存管理图
统一内存管理图
reduce中OOM的处理
1.减少每次拉取的数据量
2.提高shuffle聚合的内存比例
3.提高Executor的总内存