小常识3-深度学习常见梯度下降优化方法总结

1. 三种梯度下降优化框架

有三种梯度下降算法框架,它们不同之处在于每次学习(更新模型参数)使用的样本个数,每次更新使用不同的样本会导致每次学习的准确性和学习时间不同。

全量梯度下降(Batch gradient descent)每次使用全量的训练集样本来更新模型参数;

随机梯度下降(Stochastic gradient descent)每次从训练集中随机选择一个样本来进行学习

小批量梯度下降(Mini-batch gradient descent)Mini-batch梯度下降综合了batch梯度下降与stochastic梯度下降,在每次更新速度与更新次数中间取得一个平衡,其每次更新从训练集中随机选择m,m<n个样本进行学习

相对于随机梯度下降,Mini-batch梯度下降降低了收敛波动性,即降低了参数更新的方差,使得更新更加稳定。相对于全量梯度下降,其提高了每次学习的速度。并且其不用担心内存瓶颈从而可以利用矩阵运算进行高效计算。

问题与挑战:

虽然梯度下降算法效果很好,并且广泛使用,但同时其也存在一些挑战与问题需要解决:

  • 选择一个合理的学习速率很难。如果学习速率过小,则会导致收敛速度很慢。如果学习速率过大,那么其会阻碍收敛,即在极值点附近会振荡。
  • 学习速率调整(又称学习速率调度,Learning rate schedules)[11]试图在每次更新过程中,改变学习速率,如退火。一般使用某种事先设定的策略或者在每次迭代中衰减一个较小的阈值。无论哪种调整方法,都需要事先进行固定设置,这边便无法自适应每次学习的数据集特点[10]
  • 模型所有的参数每次更新都是使用相同的学习速率。如果数据特征是稀疏的或者每个特征有着不同的取值统计特征与空间,那么便不能在每次更新中每个参数使用相同的学习速率,那些很少出现的特征应该使用一个相对较大的学习速率。
  • 对于非凸目标函数,容易陷入那些次优的局部极值点中,如在神经网路中。那么如何避免呢。Dauphin[19]指出更严重的问题不是局部极值点,而是鞍点。

2. 梯度下降优化算法

2.1 Momentum

    动量法,就仿佛我们从高坡上推下一个球,小球在向下滚动的过程中积累了动量,在途中他变得越来越快(直到它达到了峰值速度,如果有空气阻力的话,γ<1)。在我们的算法中,相同的事情发生在我们的参数更新上:动量项在梯度指向方向相同的方向逐渐增大,对梯度指向改变的方向逐渐减小。由此,我们得到了更快的收敛速度以及减弱的震荡。

2.2 Nesterov 加速梯度法

Nesterov accelerated gradient(NAG,涅斯捷罗夫梯度加速)不仅增加了动量项,并且在计算参数的梯度时,在损失函数中减去了动量项,即计算小常识3-深度学习常见梯度下降优化方法总结,这种方式预估了下一次参数所在的位置。即:

小常识3-深度学习常见梯度下降优化方法总结

2.3 Adagrad

Adagrad[3]也是一种基于梯度的优化算法,它能够对每个参数自适应不同的学习速率,对稀疏特征,得到大的学习更新,对非稀疏特征,得到较小的学习更新,因此该优化算法适合处理稀疏特征数据。Dean[4]发现Adagrad能够很好的提高SGD的鲁棒性,google便用起来训练大规模神经网络(看片识猫:recognize cats in Youtube videos)Pennington[5]GloVe中便使用Adagrad来训练得到词向量(Word Embeddings), 频繁出现的单词赋予较小的更新,不经常出现的单词则赋予较大的更新。

在前述中,每个模型参数使用相同的学习速率,而Adagrad在每一个更新步骤中对于每一个模型参数使用不同的学习速率,设第t次更新步骤中,目标函数的参数,即:

小常识3-深度学习常见梯度下降优化方法总结

那么SGD更新方程为:

小常识3-深度学习常见梯度下降优化方法总结

Adagrad对每一个参数使用不同的学习速率,其更新方程为:

小常识3-深度学习常见梯度下降优化方法总结

其中是一个对角矩阵,其中第i行的对角元素为过去到当前第i个参数的梯度的平方和,epsilon是一个平滑参数,为了使得分母不为0(通常ϵ=1e−8),另外如果分母不开根号,算法性能会很糟糕。

小常识3-深度学习常见梯度下降优化方法总结

小常识3-深度学习常见梯度下降优化方法总结

Adagrad主要优势在于它能够为每个参数自适应不同的学习速率,而一般的人工都是设定为0.01。同时其缺点在于需要计算参数梯度序列平方和,并且学习速率趋势是不断衰减最终达到一个非常小的值。下文中的Adadelta便是用来解决该问题的。

2.4 Adadelta

Adadelta法是 Adagrad 法的一个延伸,它旨在解决它学习率不断单调下降的问题。相比计算之前所有梯度值的平方和,Adadelta 法仅计算在一个大小为w的时间区间内梯度值的累积和。

小常识3-深度学习常见梯度下降优化方法总结

小常识3-深度学习常见梯度下降优化方法总结小常识3-深度学习常见梯度下降优化方法总结

2.5 RMSProp

小常识3-深度学习常见梯度下降优化方法总结

2.6 Adam

小常识3-深度学习常见梯度下降优化方法总结

2.7 AMSGRAD

小常识3-深度学习常见梯度下降优化方法总结

小常识3-深度学习常见梯度下降优化方法总结

小常识3-深度学习常见梯度下降优化方法总结

小常识3-深度学习常见梯度下降优化方法总结

3. ma_总结

对于不同的优化算法,我们可能不需要去具体关心其代码实现,但是对于其原理我们要了解个大概。这对我们在优化算法的选择、编写代码时非常有帮助,比如说有的优化算法会创建额外的变量。

在一个网站上看到现有的最好的优化算法为:

小常识3-深度学习常见梯度下降优化方法总结

 

参考文献

1. https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650720663&idx=3&sn=d9f671f77be23a148d1830448154a545&chksm=871b0de9b06c84ffaf260b9ba2a010108cca62d5ce3dcbd8c98c72c9f786f9cd460b27b496ca&scene=21#wechat_redirect

2. https://blog.****.net/heyongluoyao8/article/details/52478715

3. https://mp.weixin.qq.com/s/NmSVXezxsQOZzK8pne3pCw

4. https://blog.****.net/leyounger/article/details/80014734