（吴恩达机器学习）初识梯度下降算法

代价函数：
（吴恩达机器学习）初识梯度下降算法

首先，我们来聊聊代价函数。如上图，上一篇博客已经讲解过代价函数（cost function）是用来描述参数θ（即假设函数）的准确性。我们通过最小化代价函数，来实现对参数θ的优化，代价函数值越小表示参数θ越优。

那么代价函数又是如何进行最小化的呢？代价函数是通过梯度下降算法来进行最小化的。
梯度下降算法：
（吴恩达机器学习）初识梯度下降算法
如图所示，梯度下降算法的功能是，对于某一代价函数，我们想通过此算法来寻找到最优的参数θ，从而使得代价函数值最下。算法的步骤为：给参数θ赋予某一初始值，然后持续改变参数值从而减少代价函数值，直到代价函数值达到最小值。

假设代价函数如下图所示：
（吴恩达机器学习）初识梯度下降算法
梯度下降算法的核心思想为：起初某人站在山上的某一处（初始化点），他想尽快的下山（达到最小值点），每次他的策略就是环顾四周，寻找向下的最陡的方向前进，直到达到最低点，过程如下图所示：

（吴恩达机器学习）初识梯度下降算法
注意：对于有局部最小点的函数而言，初始化点不同可能最终达到的最小值点也不同，不过线性回归不存在这样的问题。

上面所提到的最陡的方向在算法中是如何实现的呢？
在一次函数中，就是沿斜率的方向前进，在多元函数中，就是按各个参数的偏导数方向前进，即可达到向最陡的方向前进的效果。所以梯度下降算法的核心步骤如下：直到函数值收敛，不然持续同时更新各参数值。
（吴恩达机器学习）初识梯度下降算法
学习率α：
上述公式中，α为学习率，表示每次改变参数θ值的幅度大小，即每次下山的步伐有多大。
（1）若学习率α太小：会使得在达到最小值点之前，算法进行的迭代次数过大，影响算法的效率。
（1）若学习率α太大：可能是的代价函数无法收敛达到最小值点，甚至可能发散。

（吴恩达机器学习）初识梯度下降算法
值得注意的是：只要学习率α足够小，即使在算法迭代的过程中学习率α一直保存不变，代价函数一定可以达到（局部）最优点，因为在优化的过程中斜率是在不断减小的，所以参数改变的幅度一定是在不断变小的，因此不用改变学习率α的值。

进过计算，梯度下降算法的具体详细公式如下：
（吴恩达机器学习）初识梯度下降算法

迭代过程中，过程如下图所示：
（吴恩达机器学习）初识梯度下降算法

（吴恩达机器学习）初识梯度下降算法

相关推荐