002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

参考

http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML2020/Optimization.pdf

变量解释

目标:寻找使损失函L(θ)L(\theta)数最小的模型参数θ\theta
模型参数θ\theta、损失函数L(θ)L(\theta)、动量mm
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

SGD(Stochastic gradient descent,随机梯度下降)

下降由该点梯度决定
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

SGDM(SGD with Momentum)

下降由该点梯度、上次动量共同决定
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG
为什么增加动量?
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

Adagrad(Adaptive Gradient,自适应梯度)

  • 下降由该点之前(当前梯度)/(以前所有梯度平方和的开方)决定
  • 对于梯度突变的情况,让其变化地平缓一点 学习率单调递减,可能在还没有找到最佳点之前停止

[外链图片转存失败,源站可能有防盗在这里插入!链机制,建描述]议将图片上https://传(imblog.csdnimg.cGIHu2020050115581933.png64)(https://img- .csdnimg.cn/20200501160107805.png)]002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

RMSProp(Root Mean Square Propagation,均方根传播)

下降由该点之前(当前梯度)/(以前所有梯度平方和的开方)决定
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

Adam(Adaptive Moment Estimation,自适应矩估计)

002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

SWATS(Switch from Adam to SGD)

Adam vs SGDM
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

AMSGrad

没找到全称,感觉是(ADAM + RMSProp)
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

AdaBound

没看视频,Clip应该是把x限制在后面那两个范围内
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

SGDM算法改善

Cyclical LR(周期性的Learning Rate)

002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

SGDR(Stochastic Gradient Descent with Warm Restarts)

学习率从大到小,周而复始
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

One-cycle LR

002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

RAdam(Rectified Adam)

warm up:开始时学习速率变化大点,后面慢点
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

NAG(Nesterov accelerated gradient)

下面有个超前部署,具体理解可以看下面这篇文章。

https://zhuanlan.zhihu.com/p/22810533

SGDM告诉我们下一个位置θt\theta_{t}由动量mt1m_{t-1}和梯度L(θt1)\nabla L(\theta_{t-1})共同决定,NAG就说,那我不如就先走到下一个由动量决定的位置(θt1λmt1\theta_{t-1}-\lambda m_{t-1}),再求微分,也就是所谓的超前部署
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

Nadm(Incorporating Nesterov Momentum into Adam)

002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

AdamW & SGDW with momentum

  • W:L2 regularization or weight decay
    002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

其他的优化

002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG

总结

002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG
NLP(Natural language processing)
QA(Question answering)
GAN(Generative adversarial network)
两个神经网络在游戏中相互竞争(从博弈论的角度讲,通常但并非总是以零和博弈的形式)。 在给定训练集的情况下,该技术将学习生成具有与训练集相同的统计数据的新数据
002 SGD、SGDM、Adagrad、RMSProp、Adam、AMSGrad、NAG