机器学习基础 - [第一章：单变量线性回归]（6）梯度下降算法（参数学习方法）

1、梯度下降算法的核心公式

机器学习基础 - [第一章：单变量线性回归]（6）梯度下降算法（参数学习方法）
该公式主要由三部分组成：初始迭代值 $\theta_{j}$ 、学习率 $\alpha$ 、以及偏导数 $\frac{\partial J(\theta_{0},\theta_{1})}{\partial \theta_{j}}$ ,注意,在这里 $\theta_{0}$ 和 $\theta_{1}$ 是同时被更新的。

2、梯度下降算法如何得到代价函数 $J(\theta)$ 的最小值？

机器学习基础 - [第一章：单变量线性回归]（6）梯度下降算法（参数学习方法）
假设假设函数 $h(\theta)$ 只有一个参数 $\theta_{1}$ ，上图是根据 $\theta_{1}$ 的取值画出的对应损失函数。从图中可以看出，当偏导数为正时， $\theta_{1}$ 的值减小， $J(\theta)$ 向局部最小值靠近，当偏导数为负时， $\theta_{1}$ 的值减增大， $J(\theta)$ 仍然向局部最小值靠近，所以通过梯度下降 $\theta_{1}$ 总能收敛到局部最小值。

3、学习率的取值对梯度下降算法效率的影响

机器学习基础 - [第一章：单变量线性回归]（6）梯度下降算法（参数学习方法）
当学习率取不同值时，梯度下降算法的效率会有不同的结果，如图3所示，：
（1）如果 $\alpha$ 的值太小，那么 $\theta_{1}$ 每次的变化非常小，需要经过很多次迭代才能收敛到最小值，算法会非常慢；
（2）如果 $\alpha$ 的值太大，那么 $\theta_{1}$ 每次的变化也会非常大，甚至会发散，无法收敛到最小值。
注意，当 $\theta_{1}$ 收敛到局部最小值时，偏导数为0， $\theta_{1}$ 的值将不再改变。

4、为什么学习率固定，梯度下降算法仍能收敛到局部最优值？

机器学习基础 - [第一章：单变量线性回归]（6）梯度下降算法（参数学习方法）
即使 $\theta_{1}$ 的值固定，梯度下降算法仍能收敛到局部最小值，主要是因为每次迭代接近局部最小值时，偏导数的绝对值在逐渐减小，当 $\theta_{1}$ 的值固定， $\theta_{1}$ 的变化幅度就会减小。

机器学习基础 - [第一章：单变量线性回归]（6）梯度下降算法（参数学习方法）

1、梯度下降算法的核心公式

2、梯度下降算法如何得到代价函数J(θ)J(\theta)J(θ)的最小值？

3、学习率的取值对梯度下降算法效率的影响

4、为什么学习率固定，梯度下降算法仍能收敛到局部最优值？

相关推荐

2、梯度下降算法如何得到代价函数 $J(\theta)$ 的最小值？