吴恩达《Machine Learning》-gradient descent 梯度下降（三）

吴恩达《Machine Learning》-gradient descent 梯度下降（三）
在实际中，我们有n个参数θ0，θ1，θ2```````θn
在此我们以两个参数举例，最小化J(θ0,θ1)

算法：

我们以θ0=0,θ1=0开始，
保持θ0，θ1参数改变，然后查看J(θ0,θ1)。
当J(θ0,θ1)为最小的时候即为结束
吴恩达《Machine Learning》-gradient descent 梯度下降（三）
从图中点出发，假设你身处在山顶上，即为寻找当前最快下降的方向下山。
下降一个位置后，再次寻找当前最快下降的方向下山。
最后抵达了局部最优点(低点)

另一个位置，来到了其他的局部最优点(低点)
吴恩达《Machine Learning》-gradient descent 梯度下降（三）

a：=b（：=为赋值）
a=b（为判断是否相等）
α为学习率表明下降步子的大小。学习率越大，表明下降的步子越大。

注意：

θ0，θ1需要同时更新。
错误的方法为：
更新完θ0后，使用更新后的θ0的值，去计算θ1的值

检测题：

吴恩达《Machine Learning》-gradient descent 梯度下降（三）
答案为(B)。注意同时更新的含义。

导数项∂J(θ1)/∂θ1解释：(以一个参数θ1举例)：

当导数为正数时,∂J(θ1)/∂θ1>=0，学习率α正数∂J(θ1)/∂θ1=正数
故θ1-α∂J(θ1)/∂θ1<0 所以θ1随着梯度越来越小
吴恩达《Machine Learning》-gradient descent 梯度下降（三）
当导数为负数时,∂J(θ1)/∂θ1<=0，学习率α正数∂J(θ1)/∂θ1=负数
故θ1-α∂J(θ1)/∂θ1>0 所以θ1随着梯度越来越大

学习率α解释：

α小的话，相当于每次都迈出很小的一步。所以梯度下降将会变得很慢。但是不会跨过最优点，导致无法收敛。
吴恩达《Machine Learning》-gradient descent 梯度下降（三）
α大的话，相当于每次都迈出很大一步。所以梯度下降将会变得很快。但可能扩过最优点，导致无法收敛。（导数为负，梯度下降后的值，更大了）