机器学习-梯度下降算法

1.引言

虽然我们知道，代价函数Jθ的表达式，但是还不知道怎么去确定假设函数hθ(x)的所有参数θ0,θ1 ... θn，使得Jθ值最小。

我们还是假设hθ(x)是一个线性函数，并且只有2个参数θ0,θ1，对应特征向量x只有1维

我们的目标是使得J(θ0,θ1)最小

我们可以采用以下方法，尝试找到J(θ0,θ1)最小值

这个算法我们称之为"梯度下降"算法

假设J(θ0,θ1)值和参数θ0,θ1满足如下3维关系图

按照前面提到的迭代方法，假设不同的θ0, θ1的初始值，我们可能会有如下两个不同的迭代过程

从前面两个图中所示，我们会发现θ0, θ1初始值不同的时候，我们会找到不同局部最小值，这个特点正是"梯度下降"算法的特点，虽然很多时候都只会有一个全局的最小值

根据前面的介绍，当只有2个参数θ0, θ1的时候，可以定义梯度下降算法的函数，如下

特别说明:

:= 表示赋值，例如a := b 表示把b的值赋值给a
= 表示判断是否相等，例如 a = b表示判断a等于b
重复上述过程，直到函数收敛，得到的θ0, θ1值即为最佳参数值
α我们称为learning rate，如果α的值太大则迭代的步伐太大，反应在图上即下降的速率太大，可能导致错过了局部最小值；如果α的值太小则迭代的步伐太小，反应在图上即下降的速率太小，会导致求解过程太慢。
注意，我们发现等式右边被减数是一个求偏导数，如果不了解偏导数（参考https://zh.wikipedia.org/wiki/%E5%81%8F%E5%AF%BC%E6%95%B0）
另外还有一个需要注意的是，所有的参数必须需要同步更新，所谓同步更新如下图所示