机器学习中梯度下降算法解释为什么梯度方向函数值是下降的

之前学习逆向传播算法对参数的优化,看到了它的原理是梯度下降,所以查了知乎,看到了梯度下降(知乎上资料的链接)的数学原理。梯度就是偏导数构成的一个向量,梯度的模与方向导数最大值一样,指的是函数值变化最大的方向,但是为什么反梯度方向即为函数下降最快呢?很多地方都没有说明,本文用直观的方法进行说明。

机器学习中梯度下降算法解释为什么梯度方向函数值是下降的

机器学习中梯度下降算法解释为什么梯度方向函数值是下降的