深度学习中的优化

深度学习的优化，基本算法有：

1. 随机梯度下降

深度学习中的优化

2. 动量

其实就是综合历史累计的梯度和当前梯度

深度学习中的优化

3. Nesterov 动量

梯度值不是来自于当前梯度，而是来自于由历史累计梯度得到的预测位置的梯度

深度学习中的优化

由于学习率是难以设置的超参，于是有如下自适应学习率算法：

1. AdaGrad

当前学习率由初始学习率除以历史梯度的累计平方和开根号得到

深度学习中的优化

2. RMSProp

和AdaGrad相比，RMSProp提高了当前梯度所占的比重，而可以逐步消减遥远过去历史的梯度影响

深度学习中的优化

3. Adam

Adam可以看作是RMSProp和动量的某种结合，用一个变量累积梯度（用来影响梯度），另一个变量累积梯度的平方（用来收缩学习率）

深度学习中的优化

以上算法的伪代码，截图自 https://www.deeplearningbook.org/contents/optimization.html （关于优化的更多内容，也可以参考这个链接）

祖国翔，于上海