关于spark active jobs 卡死原因,求助

调整并行度为1000后,spark上出现大量的active jobs,并且始终不结束

关于spark active jobs 卡死原因,求助

以前红圈处为默认200,执行后偶尔会出现active jobs 死掉的任务,改成1000是为了提升性能,从单个执行情况看比200要快50%,但是遇到了这个糟心的问题......

关于spark active jobs 卡死原因,求助

最早的一波active jobs:

关于spark active jobs 卡死原因,求助

点击详情,发现是first显示未执行结束:

关于spark active jobs 卡死原因,求助

但是实际上已经执行结束了:

关于spark active jobs 卡死原因,求助


查看各种材料,可能是由于内部监听的时序问题导致:https://issues.apache.org/jira/browse/SPARK-18838


诸位大神,有谁遇到过,撒点思路吧~~