梯度下降法,牛顿法,牛顿高斯法的原理比较

梯度下降法和牛顿法可以用于任何可导函数的优化,都是把要优化的函数做泰勒展开后,找到能让目标函数最小的那个梯度下降法,牛顿法,牛顿高斯法的原理比较,注意不会目标函数的自变量x。

梯度下降法值保留泰勒展开的一阶项(只有雅克比项),牛顿法保留到二阶项(有海森矩阵项)。

为了求使目标函数最小的梯度下降法,牛顿法,牛顿高斯法的原理比较,我们对梯度下降法,牛顿法,牛顿高斯法的原理比较求导,然后试图求得使倒数为0的那个梯度下降法,牛顿法,牛顿高斯法的原理比较

  1. 对于一阶的梯度下降法,求导后是线性方程,所以没有极小值,所以只用求得的梯度下降法,牛顿法,牛顿高斯法的原理比较的方向。
  2. 对于二阶的牛顿法,求导后是二阶方程,所以能够求得一个极小值。

梯度下降法,牛顿法,牛顿高斯法的原理比较

一维情况的示意图举例。一阶近似的时候是一条直线,所以没有极小值,二阶近似的时候是一个抛物线,所以存在一个最小点,但并不是说这个最小点就是最好的值。毕竟近似函数和目标函数还是有差异的。近似函数只能代表当前点附近的情况。

这就是梯度下降法和牛顿法最大的不同,一个只能求得一个方向,一个可以直接求得一个值。

牛顿高斯法其实属于一阶的方法,只能用于最小二乘的目标函数。对平方和里的非线性函数进行展开后,只保留一阶项。然后把平方和展开后,对梯度下降法,牛顿法,牛顿高斯法的原理比较求导。因为有个平方项,所以梯度下降法,牛顿法,牛顿高斯法的原理比较的倒数是二次方,也就能求一个值出来了。