梯度下降法（Gradient Descent， GD）数学推导

本文参考李宏毅机器学习视频

1、首先回顾一下 Taylor 展开式的形式：

2、当两向量反向相反时，相乘取得最小值；

利用下图演示模型的优化过程（即最小化 Loss function 的过程）：

梯度下降法（Gradient Descent， GD）数学推导

为了找到 loss function 的最小值（图中最低点），先随机找一点（a，b），然后以（a，b）为圆心，画一个足够小的圆；

在这个圆内，可以使用 Taylor 公式将 loss function 展开，又因为这个圆足够小，圆内的点趋近于（a，b），所以在 Taylor 展开时越高次项越趋近于0，可以忽略不计，只保留到一次项得到的 loss function 展开式如下：

梯度下降法（Gradient Descent， GD）数学推导

下面就要在这个圆圈中求使得 loss 最小的（theta1，theta2）点；

L（a，b）是固定值，不影响 loss 变化；

后两项就可以看作是以下两向量点乘：

梯度下降法（Gradient Descent， GD）数学推导

根据预备知识2，将圆圈提取出来，若要取得最小值，两向量如下图：

梯度下降法（Gradient Descent， GD）数学推导

进一步可以写做：

梯度下降法（Gradient Descent， GD）数学推导

整理上式即可得到梯度下降法表达式如下：

梯度下降法（Gradient Descent， GD）数学推导