梯度下降法，牛顿法，牛顿高斯法的原理比较

梯度下降法和牛顿法可以用于任何可导函数的优化，都是把要优化的函数做泰勒展开后，找到能让目标函数最小的那个梯度下降法，牛顿法，牛顿高斯法的原理比较，注意不会目标函数的自变量x。

梯度下降法值保留泰勒展开的一阶项（只有雅克比项），牛顿法保留到二阶项（有海森矩阵项）。

为了求使目标函数最小的梯度下降法，牛顿法，牛顿高斯法的原理比较，我们对求导，然后试图求得使倒数为0的那个。

一维情况的示意图举例。一阶近似的时候是一条直线，所以没有极小值，二阶近似的时候是一个抛物线，所以存在一个最小点，但并不是说这个最小点就是最好的值。毕竟近似函数和目标函数还是有差异的。近似函数只能代表当前点附近的情况。

这就是梯度下降法和牛顿法最大的不同，一个只能求得一个方向，一个可以直接求得一个值。

牛顿高斯法其实属于一阶的方法，只能用于最小二乘的目标函数。对平方和里的非线性函数进行展开后，只保留一阶项。然后把平方和展开后，对梯度下降法，牛顿法，牛顿高斯法的原理比较求导。因为有个平方项，所以的倒数是二次方，也就能求一个值出来了。