优化算法-4:学习率衰减

本文来自于网易云课堂

学习率衰减

加快学习的一个办法就是随时间慢慢减少学习率,我们称之为学习率衰减。慢慢减少学习率的原因在于,在训练的初期,你可以承受较大的步伐,但是开始收敛的时候,小的学习率能让你的步伐变小一些。
如何减少学习率呢?
我们称一次迭代为1poch,那么让
α=11+decayrateepochnumα0
优化算法-4:学习率衰减
如果想用学习率衰减,要做的就是尝试不同的超参数值,直到找到合适的值。
除了这个公式,人们还经常使用其他公式。
优化算法-4:学习率衰减

局部最优问题

在深度学习研究早期,人们总是担心优化算法会困在极差的局部最优。不过,随着深度学习理论的不断发展,我们对局部最优的理解也发生了改变。当提到局部最优时,人们脑海中想到的图像是这样的:
优化算法-4:学习率衰减
看起来图像里有很多局部最优的点,但这些低维图像给了我们一些指导,但是这些指导并不太准确。事实上,如果创建一个神经网络,通常梯度为0的点,并不是这个图中的局部最优点,而通常是鞍点(saddle points)。在一个两维的图像中,很可能得到局部最优点,但对于一个20000维的图像来说,要想每个方向的梯度都是0,这个可能性是很小很小的。因此在高维空间,碰到的大部分是鞍点。因此,如果你训练一个较大的网络,你很少会困在局部最优点。
优化算法-4:学习率衰减
如果局部最优不是问题,那么问题是什么?就是平稳段(plateaus)会减缓学习,平稳段是一段区域,其梯度长时间等于0,将会减慢训练速度,而这也是优化算法让你加速的地方。