深度学习中的优化

深度学习的优化,基本算法有:

1. 随机梯度下降

深度学习中的优化

2. 动量

其实就是综合历史累计的梯度和当前梯度

深度学习中的优化

3. Nesterov 动量

梯度值不是来自于当前梯度,而是来自于由历史累计梯度得到的预测位置的梯度

深度学习中的优化

由于学习率是难以设置的超参,于是有如下自适应学习率算法:

1. AdaGrad

当前学习率由初始学习率除以历史梯度的累计平方和开根号得到

深度学习中的优化

2. RMSProp

和AdaGrad相比,RMSProp提高了当前梯度所占的比重,而可以逐步消减遥远过去历史的梯度影响

深度学习中的优化

3. Adam

Adam可以看作是RMSProp和动量的某种结合,用一个变量累积梯度(用来影响梯度),另一个变量累积梯度的平方(用来收缩学习率)

深度学习中的优化

 

以上算法的伪代码,截图自 https://www.deeplearningbook.org/contents/optimization.html (关于优化的更多内容,也可以参考这个链接)

 

祖国翔,于上海

https://www.linkedin.com/in/guoxiang-zu/