for循环嵌套带来的超长耗时

1.场景描述
我们在做增量库存同步的时候，有这样的逻辑：
(1).从库存系统拿到指定时间到当前时间期间库存变动的货品编码;
(2).从本系统的数据库和redis中拿到本店铺的货品编码[涉及到重复铺货]；
(3).取出两者的交集，就是本店铺中这段时间有库存变动的货品编码集合；
(4).用这个交集做入参查询对应的库存；
(5).将这个变动的库存送到淘宝平台；

2.故障现象
如果我们设定的时间距离当前时间比较长，那么运行几乎是假死，其实是运算时间特别长，7万多的商品数据，运行了3天。
这个时间距离长，那么这个时间范围内库存变动的商品量就大，但是也不至于这么长时间。

for循环嵌套带来的超长耗时

可以看出，运行时间特别长，需要找出原因。

3.问题分析
这个问题，时间短、数据量小就看不出问题；时间长、数据量大就暴露问题，表面上好像代码逻辑是对的。
最后通过加各种日志到生产环境排查的。

for循环嵌套带来的超长耗时

我们可以看到各个地方的数据量有多大，并且每个小步骤运行的时间有多长，问题代码如下：

for循环嵌套带来的超长耗时

根据日志可以看出这个数据量：tbSkuList 的量到了64797，chainStoreList 数据量64144，tempModifiedList 数据量64797.
这种for循环嵌套，导致的结果是6万与6万的循环运算，达到上亿次，中途并没有break；

4.解决方案
for循环嵌套需要进行改造，首先想到的是，加上break，减少循环次数，实际上，这样做，只能缩短一半的时间，是二分查找的结果；
对于超大循环，最好不要嵌套循环。
所以，将内部的for循环的数据结构改为 key-value 形式，用 map.get(key)，这样的效率就高很多了。
将亿级别的运算降低到万级别。

5.优化建议
大数据量不要做嵌套循环，即使加入了break，还不是好的解决方案。改造为 key-value 数据结构，这样取值就非常快了。

for循环嵌套带来的超长耗时

相关推荐