您的位置: 首页 > 文章 > 梯度下降法

梯度下降法

分类: 文章 • 2024-04-27 17:33:13

一，梯度的定义（gradient descent）

一元函数 $y = f (x)$ 在点 $x_{0}$ 处的梯度是： $(f^{'} (x_{0}))$

二元函数 $z = f (x, y)$ 在点 $（ x_{0}, y_{0} ）$ 处的梯度是： $({\frac{\partial f}{\partial x} |}_{(x_{0}, y_{0})}, {\frac{\partial f}{\partial y} |}_{(x_{0}, y_{0})})$

简而言之，对多元函数的各个自变量求偏导数，并把求得的这些偏导数写成向量的形式，就是梯度。我们常把函数 $f$ 的梯度简记为： $g r a d f 或 \nabla f$

例子：
函数 $φ = 2 x + 3 y^{2} - s i n (z)$ 的梯度为： $\nabla φ = ({\frac{\partial φ}{\partial x} |}_{,} {\frac{\partial φ}{\partial y} |}_{,} \frac{\partial φ}{\partial z} |) = (2, 6 y, - c o s (z))$
原来梯度是一个向量

二，梯度的理解
梯度下降法

三，梯度下降法的定义

$η$ 相当于是步长,或者叫学习率

对模型的训练不是一蹴而就的，而是一次一次地反复训练。每次训练都需要一批样本。对这一批样本构造损失函数，然后求解梯度，更正参数。一般不建议把batch size取得太小。
$θ = θ - η \nabla_{θ} J (θ)$

\frac{\sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2}}{m}

占用内存少，容易出现抖动

四，梯度下降的问题之一：初始值与局部极小值
梯度下降法

五，梯度下降的问题之二：参数调整缓慢
梯度下降法

六，普通的梯度下降法

七，梯度下降方法之：momentum
梯度下降法

八，梯度下降方法之：Nesterov
梯度下降法

九，梯度下降方法之：Adagrad自适应方法
梯度下降法

十，梯度下降方法之: AdaDelta以及RMSprop
梯度下降法

梯度下降法

梯度下降法