Gradient Descent

优化问题

$\theta^*=argmin_{\theta}L(\theta)$
$L:$ Loss Function
$\theta:$ 参数

$\theta^0:$ 随机设定
$\theta^0=[\theta_1,\theta_2,...,\theta_n]^T$

${\nabla}L(\theta)=[\frac{{\partial}L(\theta_1)}{\partial\theta_1},\frac{{\partial}L(\theta_2)}{\partial\theta_2},...,\frac{{\partial}L(\theta_n)}{\partial\theta_n}]^T$

$\theta^i=\theta^{i-1}-\eta{\nabla}L(\theta^{i-1})$

$\eta:$ 学习率

调整学习率

1.要画Loss下降图。
机器学习（李宏毅）lecture02学习笔记（Gradient Descent）
2.自动调学习率的方法

Adagrad算法：
一开始，比较大；后面减小；每个不同的参数给不同的学习率。

$w^1=w^0-\frac{\eta_0}{\sigma^0}g^0$
$\sigma^0=\sqrt{(g^0)^2}$
$w^2=w^1-\frac{\eta_1}{\sigma^1}g^1$
$\sigma^1=\sqrt{\frac{1}{2}[(g^0)^2+(g^1)^2]}$
$...$
$w^{t+1}=w^t-\frac{\eta_t}{\sigma^t}g^t$
$\sigma^t=\sqrt{\frac{1}{t+1}\sum^t_{i=0}(g^i)^2}$

令 $\eta^t=\frac{\eta}{\sqrt{t+1}}$ ，则：
$w^{t+1}=w^t-\frac{\eta}{\sqrt{\sum^t_{i=0}(g^i)^2}}g^t$

Stochastic Gradient Descent（随机梯度下降）:

普通梯度下降：
$L=\sum_n({\widehat{y}}^n-(b+\sum{w_ix_i^n}))^2$
$\theta^i=\theta^{i-1}-\eta{\nabla}L(\theta^{i-1})$
随机梯度下降：
随机选一个样本 $x^n$ ，每个样本都更新一次参数
$L^n=\sum_n({\widehat{y}}^n-(b+\sum{w_ix_i^n}))^2$
$L^n$ ：对一个样本的Loss。
$\theta^i=\theta^{i-1}-\eta{\nabla}L^n(\theta^{i-1})$

Feature Scaling（特征缩放）

将不同的feature的scale调到差不多。
机器学习（李宏毅）lecture02学习笔记（Gradient Descent）
原因：做参数更新时效率较高。

问题：

（1）局部最小值。
（2）鞍点。
（3）在高原地区比较慢。

Demo：

https://blog.****.net/Xiao_yanling/article/details/89300638

机器学习（李宏毅）lecture02学习笔记（Gradient Descent）