Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减

learning rate decay 学习速率衰减


Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减

  • 对于mini-batch gradient descent,其梯度下降可能会围绕最优点附近徘徊,但是由于learning rate不变,可能不会进一步靠近最优点(蓝色路径)
  • 如果learning rate会随着学习的深入不断衰减,那么上述情况会得到改善,最终的结果和更加靠近最优点(绿色路径)
    Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减
    方法 一
    1 epoch=1 pass through data

    α=11+decayRateepochNumα0

    Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减
    方法 二 (exponentially decay)
    α=0.95epochNumα0

    方法 三
    α=kepochNumα0

    α=ktα0

    t是mini-batch的次数。
    方法 四 (discrete staircase)
    方法 五 (manual decay )