本文来自于网易云课堂

学习率衰减

加快学习的一个办法就是随时间慢慢减少学习率，我们称之为学习率衰减。慢慢减少学习率的原因在于，在训练的初期，你可以承受较大的步伐，但是开始收敛的时候，小的学习率能让你的步伐变小一些。
如何减少学习率呢？
我们称一次迭代为1poch，那么让
$α = \frac{1}{1 + d e c a y - r a t e * e p o c h - n u m} * α_{0}$
优化算法-4：学习率衰减
如果想用学习率衰减，要做的就是尝试不同的超参数值，直到找到合适的值。
除了这个公式，人们还经常使用其他公式。

局部最优问题

在深度学习研究早期，人们总是担心优化算法会困在极差的局部最优。不过，随着深度学习理论的不断发展，我们对局部最优的理解也发生了改变。当提到局部最优时，人们脑海中想到的图像是这样的：
优化算法-4：学习率衰减
看起来图像里有很多局部最优的点，但这些低维图像给了我们一些指导，但是这些指导并不太准确。事实上，如果创建一个神经网络，通常梯度为0的点，并不是这个图中的局部最优点，而通常是鞍点(saddle points)。在一个两维的图像中，很可能得到局部最优点，但对于一个20000维的图像来说，要想每个方向的梯度都是0，这个可能性是很小很小的。因此在高维空间，碰到的大部分是鞍点。因此，如果你训练一个较大的网络，你很少会困在局部最优点。
优化算法-4：学习率衰减
如果局部最优不是问题，那么问题是什么？就是平稳段(plateaus)会减缓学习，平稳段是一段区域，其梯度长时间等于0，将会减慢训练速度，而这也是优化算法让你加速的地方。

优化算法-4：学习率衰减

学习率衰减

局部最优问题

相关推荐