sparkstreaming消费处理速度滞后

sparkstreaming消费处理速度滞后

在工作中遇到上图所示问题,sparkstreaming处理速度跟不上拉取的数量,我尝试给spark作业增大资源,完全没作用,后来发现kafka的topic只有一个分区,spark作业都已经给了5个excutor,再增加资源和excutor也没作用,好像是因为topic一个分区对应一个excutor,这样才能并行执行,我这里一个分区,所以只用上一个excutor,它已经达到上限,增加资源也白费。我们这里并没有充分利用excutor的数量,所以,我删掉这个topic,重新建一个5个分区的topic,重启作业后,问题就解决了。

sparkstreaming消费处理速度滞后

解决后:

sparkstreaming消费处理速度滞后