(吴恩达机器学习)初识梯度下降算法

代价函数:
(吴恩达机器学习)初识梯度下降算法

首先,我们来聊聊代价函数。如上图,上一篇博客已经讲解过代价函数(cost function)是用来描述参数θ(即假设函数)的准确性。我们通过最小化代价函数,来实现对参数θ的优化,代价函数值越小表示参数θ越优。

那么代价函数又是如何进行最小化的呢?代价函数是通过梯度下降算法来进行最小化的。
梯度下降算法:
(吴恩达机器学习)初识梯度下降算法
如图所示,梯度下降算法的功能是,对于某一代价函数,我们想通过此算法来寻找到最优的参数θ,从而使得代价函数值最下。算法的步骤为:给参数θ赋予某一初始值,然后持续改变参数值从而减少代价函数值,直到代价函数值达到最小值。

假设代价函数如下图所示:
(吴恩达机器学习)初识梯度下降算法
梯度下降算法的核心思想为:起初某人站在山上的某一处(初始化点),他想尽快的下山(达到最小值点),每次他的策略就是环顾四周,寻找向下的最陡的方向前进,直到达到最低点,过程如下图所示:

(吴恩达机器学习)初识梯度下降算法
注意:对于有局部最小点的函数而言,初始化点不同可能最终达到的最小值点也不同,不过线性回归不存在这样的问题。

上面所提到的最陡的方向在算法中是如何实现的呢?
在一次函数中,就是沿斜率的方向前进,在多元函数中,就是按各个参数的偏导数方向前进,即可达到向最陡的方向前进的效果。所以梯度下降算法的核心步骤如下:直到函数值收敛,不然持续同时更新各参数值
(吴恩达机器学习)初识梯度下降算法
学习率α:
上述公式中,α为学习率,表示每次改变参数θ值的幅度大小,即每次下山的步伐有多大。
(1)若学习率α太小:会使得在达到最小值点之前,算法进行的迭代次数过大,影响算法的效率。
(1)若学习率α太大:可能是的代价函数无法收敛达到最小值点,甚至可能发散。

(吴恩达机器学习)初识梯度下降算法
值得注意的是:只要学习率α足够小,即使在算法迭代的过程中学习率α一直保存不变,代价函数一定可以达到(局部)最优点,因为在优化的过程中斜率是在不断减小的,所以参数改变的幅度一定是在不断变小的,因此不用改变学习率α的值。

进过计算,梯度下降算法的具体详细公式如下:
(吴恩达机器学习)初识梯度下降算法

迭代过程中,过程如下图所示:
(吴恩达机器学习)初识梯度下降算法