深度学习之Hessian矩阵在牛顿法中的应用

对于多维函数，每个点在每一个方向上的导数是不同的，如果使用梯度下降，有可能在某一方向上导数增加很快，而在另外一方向上增加很慢，梯度下降是不知道导数的这些信息的，因为梯度只是一阶导数，只有二阶导数能反应一阶导数的变化情况，也就是Hessian矩阵。

一般来说, 牛顿法主要应用在两个方面, 1, 求方程的根; 2, 最优化.

1), 求解方程

_{并不是所有的方程都有求根公式}_,_{或者求根公式很复杂}_,_{导致求解困难}_._{利用牛顿法}_,_{可以迭代求解}_.

_{原理是利用泰勒公式}_,_在_x0_处展开_,_{且展开到一阶}_,_即_{f(x) = f(x0) + (x-x0) f’(x0)}

_求解方程_{f(x) = 0,}_即_{f(x0) + (x-x0)f'(x0) = 0,}_求解_{x = x1 = x0 - f(x0)/f’(x0),}_{因为这是利用泰勒公式的一阶展开}_{, f(x) = f(x0) + (x-x0) f’(x0)}_{处并不是完全相等}_,_{而是近似相等}_,_{这里求得的}_x1_并不能让_{f(x) = 0 ,}_只能说_f(x1)_的值比_f(x0)_更接近_{f(x) = 0,}_于是乎_,_{迭代求解的想法就很自然了}_,_{可以进而推出}

X_n+1₌X_n_{- f(}X_n_)/f’(X_n₎_通过迭代_,_{这个式子必然在}_{f(x*) = 0}_{的时候收敛}_._{整个过程如下图：}

深度学习之Hessian矩阵在牛顿法中的应用

2), 最优化

在最优化的问题中, 线性最优化至少可以使用单纯形法(或称不动点算法)求解, 但对于非线性优化问题, 牛顿法提供了一种求解的办法. 假设任务是优化一个目标函数f, 求函数f的极大极小问题, 可以转化为求解函数f的导数f' = 0的问题, 这样求可以把优化问题看成方程求解问题(f' = 0). 剩下的问题就和第一部分提到的牛顿法求解很相似了.

这次为了求解f' =0的根, 首先把f(x)在探索点X_n处泰勒展开, 展开到2阶形式进行近似：

深度学习之Hessian矩阵在牛顿法中的应用