斯坦福CS231n计算机视觉-神经网络参数更新机制

梯度下降法（Gradient descent update，SGD）

最后一行就是梯度下降的公式，只是简单的相乘。

存在问题：

斯坦福CS231n计算机视觉-神经网络参数更新机制

梯度的不连续性会导致参数来回震荡，所以收敛的比较慢。

动量更新（momentum update）

斯坦福CS231n计算机视觉-神经网络参数更新机制

可以看到就是本次更新和上几次的更新还有关系，原来相当于一个没有质量的球滚动，现在考虑了球的质量，有一定的惯性。V一般初始化为0，mu一般为0.5, 0.9, or 0.99，如果为1则不断震荡，相当于之前的更新不会衰减，更新速度上比SGD要快。

Nesterov Momentum update

斯坦福CS231n计算机视觉-神经网络参数更新机制

关键在于不使用本点的梯度，而是用预测的下一个点的梯度。

斯坦福CS231n计算机视觉-神经网络参数更新机制

具体怎么计算以后再看。

AdaGrad update

斯坦福CS231n计算机视觉-神经网络参数更新机制

基于凸优化提出的一种更新方法，中心思想为：梯度大的方向更新权值小。为什么呢？一般的神经网络训练中，梯度大的方向减慢速度才是好的策略，因此才有AdaGrad update，可能是经验性的结论。注意：1E-7平滑因子超参数，因为一开始cache为0。但有一个问题就是cache会逐渐变得越来越大，从而dX逐渐会变成0，很可能还没有收敛到最优解就停止了计算，于是提出：RMSProp update

RMSProp update

斯坦福CS231n计算机视觉-神经网络参数更新机制