李宏毅机器学习——学习笔记(一)

Gradient Descent

李宏毅机器学习——学习笔记(一)

学习率会出现以下四种不同的情况:
学习率太小,即图中蓝色的线,每次跨越的步长很小很小,梯度每次变化的值也小,模型要达到local minima,就必须需要更多的训练时间;
学习率太大,即图中绿色的线,每次跨越的步长会很大,很可能形成在山谷之间震荡的现象;
学习率特别大,即图中黄色的线,就很可能会直接跳出local minima,loss会越来越大;
学习率刚好合适,即图中红色的线,每次跨越的步长非常合适,达到local minima的时间也不需要特别多。

李宏毅机器学习——学习笔记(一)

李宏毅机器学习——学习笔记(一)

由于手动设置learning rate会导致很多问题,就出现了一些自适应的梯度调整方法。
刚开始训练时,我们离local minimum的距离还很远,因此可以使用稍大的learning rate;
在经过多次的训练后,离local minimum的距离已经很近了,所以这时可以使用小的learning rate;

李宏毅机器学习——学习笔记(一)