目前Spark Application处理的数据量和性能

今年最值得开心的事情,就是Spark Application在客户局点跑的效果。虽然里面涉及的算法由于涉密所以不能透露,但是性能杠杠的还是值得高兴一下的。

目前Spark Application处理的数据量和性能

每秒钟的数据量大概为40万~80万条。

实时Spark Application的性能(开5分钟的时间窗口):

目前Spark Application处理的数据量和性能

5分钟内可以处理完,没有延迟和堆积。

目前Spark Application处理的数据量和性能

离线Spark Application的性能(一天跑一次,一次处理前一天的数据):

目前Spark Application处理的数据量和性能

大概4.5个小时处理完毕,一天的数据量为几百亿级别,输入数据大小为2.1TB左右:

目前Spark Application处理的数据量和性能

可以这么刚,我还是非常欣慰的。