adam和adamW

Adam的缺点和改进

Adam有很多的优点，但是在很多数据集上的最好效果还是用SGD with Momentum细调出来的。可见Adam的泛化性并不如SGD with Momentum。https://arxiV.org/pdf/1711.05101.pdf 中提出其中一个重要原因就是Adam中L2正则化项并不像在SGD中那么有效。

L2正则和Weight Decay在Adam这种自适应学习率算法中并不等价，只有在标准SGD的情况下，可以将L2正则和Weight Decay看做一样。特别是，当与自适应梯度相结合时，L2正则化导致具有较大历史参数和/或梯度幅度的权重比使用权重衰减时更小。

使用Adam优化带L2正则的损失并不有效，如果引入L2正则化项，在计算梯度的时候会加上正则项求梯度的结果。正常的权重衰减是对所有的权重都采用相同的系数进行更新，本身比较大的一些权重对应的梯度也会比较大，惩罚也越大。但由于Adam计算步骤中减去项会有除以梯度平方的累积，使得梯度大的减去项偏小，从而具有大梯度的权重不会像解耦权重衰减那样得到正则化。这导致自适应梯度算法的L2和解耦权重衰减正则化的不等价。

而在常见的深度学习库中只提供了L2正则，并没有提供权重衰减的实现。这可能就是导致Adam跑出来的很多效果相对SGD with Momentum有偏差的一个原因。

Adam with L2 regularization和AdamW的代码：

adam和adamW

上图，红色是原Adam，绿色是AdamW。

完成了梯度下降与weight decay的解耦。

大部分的模型都会有L2 regularization约束项，因此很有可能出现Adam的最终效果没有sgd的好。目前bert训练采用的优化方法就是Adamw，对除了layernorm，bias项之外的模型参数做weight decay。

我的理解：Adam的weight decay发生在红字部分，所以由于g^2作分母，会使得大的梯度得不到足够力度的正则化；而AdamW把weight decay放在了绿字部分，所以能有效的正则化。

Adam的缺点和改进

相关推荐