Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减
learning rate decay 学习速率衰减
- 对于mini-batch gradient descent,其梯度下降可能会围绕最优点附近徘徊,但是由于learning rate不变,可能不会进一步靠近最优点(蓝色路径)
- 如果learning rate会随着学习的深入不断衰减,那么上述情况会得到改善,最终的结果和更加靠近最优点(绿色路径)
方法 一
方法 二 (exponentially decay)
方法 三
是mini-batch的次数。
方法 四 (discrete staircase)
方法 五 (manual decay )