深度学习基础知识总结

1.优化算法

  1. Momentum
    深度学习基础知识总结
    Momentum 在更新参数的时候没有直接使用当前导数,而是用的指数平均值 将历史的导数做了记录,并且当前的权重的最大的,之前的依次递减

超参数设定值: 一般 γ 取值 0.9 左右。

优点:
可以使得梯度方向不变的维度上速度变快,梯度方向有所改变的维度上的更新速度变慢,这样就可以加快收敛并减小震荡。

  1. Nesterov Accelerated Gradient

深度学习基础知识总结

  1. Adagrad (Adaptive gradient algorithm)
    这个算法就可以对低频的参数做较大的更新,对高频的做较小的更新,也因此,对于稀疏的数据它的表现很好,很好地提高了 SGD 的鲁棒性
    深度学习基础知识总结
    这个算法与上一个属于同一类,不过坟分母使用的指数平均值所以解决了学习率急剧下降的问题深度学习基础知识总结

3. Adam

深度学习基础知识总结