Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减

learning rate decay 学习速率衰减

对于mini-batch gradient descent，其梯度下降可能会围绕最优点附近徘徊，但是由于learning rate不变，可能不会进一步靠近最优点（蓝色路径）
如果learning rate会随着学习的深入不断衰减，那么上述情况会得到改善，最终的结果和更加靠近最优点（绿色路径）

方法一
$1 e p o c h = 1 p a s s t h r o u g h d a t a$
$α = \frac{1}{1 + d e c a y R a t e * e p o c h N u m} α_{0}$

方法二 (exponentially decay)
$α = {0.95}^{e p o c h N u m} α_{0}$
方法三
$α = \frac{k}{\sqrt{e p o c h N u m}} α_{0}$
$α = \frac{k}{\sqrt{t}} α_{0}$
$t$ 是mini-batch的次数。
方法四（discrete staircase）
方法五（manual decay ）