梯度下降法(Gradient Descent, GD)数学推导

本文参考李宏毅机器学习视频

预备知识

1、首先回顾一下 Taylor 展开式的形式:

梯度下降法(Gradient Descent, GD)数学推导

2、当两向量反向相反时,相乘取得最小值;

梯度下降法数学推导

利用下图演示模型的优化过程(即最小化 Loss function 的过程):

梯度下降法(Gradient Descent, GD)数学推导

为了找到 loss function 的最小值(图中最低点),先随机找一点(a,b),然后以(a,b)为圆心,画一个足够小的圆;

在这个圆内,可以使用 Taylor 公式将 loss function 展开,又因为这个圆足够小,圆内的点趋近于(a,b),所以在 Taylor 展开时越高次项越趋近于0,可以忽略不计,只保留到一次项得到的 loss function 展开式如下:

梯度下降法(Gradient Descent, GD)数学推导

下面就要在这个圆圈中求使得 loss 最小的(theta1,theta2)点;

L(a,b)是固定值,不影响 loss 变化;

后两项就可以看作是以下两向量点乘:

梯度下降法(Gradient Descent, GD)数学推导

根据预备知识2,将圆圈提取出来,若要取得最小值,两向量如下图:

梯度下降法(Gradient Descent, GD)数学推导

进一步可以写做:

梯度下降法(Gradient Descent, GD)数学推导

整理上式即可得到梯度下降法表达式如下:

梯度下降法(Gradient Descent, GD)数学推导