深度学习中的优化
深度学习的优化,基本算法有:
1. 随机梯度下降
2. 动量
其实就是综合历史累计的梯度和当前梯度
3. Nesterov 动量
梯度值不是来自于当前梯度,而是来自于由历史累计梯度得到的预测位置的梯度
由于学习率是难以设置的超参,于是有如下自适应学习率算法:
1. AdaGrad
当前学习率由初始学习率除以历史梯度的累计平方和开根号得到
2. RMSProp
和AdaGrad相比,RMSProp提高了当前梯度所占的比重,而可以逐步消减遥远过去历史的梯度影响
3. Adam
Adam可以看作是RMSProp和动量的某种结合,用一个变量累积梯度(用来影响梯度),另一个变量累积梯度的平方(用来收缩学习率)
以上算法的伪代码,截图自 https://www.deeplearningbook.org/contents/optimization.html (关于优化的更多内容,也可以参考这个链接)
祖国翔,于上海