关于spark active jobs 卡死原因,求助
调整并行度为1000后,spark上出现大量的active jobs,并且始终不结束
以前红圈处为默认200,执行后偶尔会出现active jobs 死掉的任务,改成1000是为了提升性能,从单个执行情况看比200要快50%,但是遇到了这个糟心的问题......
最早的一波active jobs:
点击详情,发现是first显示未执行结束:
但是实际上已经执行结束了:
查看各种材料,可能是由于内部监听的时序问题导致:https://issues.apache.org/jira/browse/SPARK-18838
诸位大神,有谁遇到过,撒点思路吧~~