一、牛顿法主要有两个应用方向：

二、求方程的根：

假设我们现在要求方程 $f(x)=0$ 的根 $x^*$ ：
- 第一步：对 $f(x)$ 进行一阶泰勒展开： $f(x)≈f(x_0 )+f'(x_0 )(x-x_0)$ $g(x)=f(x_0 )+f'(x_0 )(x-x_0)$ $g(x)$ 为 $f(x)$ 的一阶泰勒展开，其实质就是 $f(x)$ 在 $x_0$ 点的切线方程，根据泰勒公式的性质我们知道 $f(x)$ 和 $g(x)$ 在 $x_0$ 点附近的值可以非常接近。
- 第二步：求出 $g(x)$ 的根 $x_1$ ： $f(x_0 )+f' (x_0 )(x-x_0 )=0$ $x_1=x_0-\frac{f(x_0 )}{f'(x_0 )}$
- 第三步：重复第一步和第二步直到收敛： $x_{k+1}=x_k-\frac{f(x_k )}{f'(x_k )}$ $x^*= \lim_{k→+∞}⁡x_k$
- 迭代过程图：

一元函数泰勒公式： $f(x)≈f(x_0 )+f' (x_0 )(x-x_0 )+\frac{1}{2!} f''(x_0 ) (x-x_0 )^2+⋯+\frac{1}{n!} f^((n) ) (x_0 ) (x-x_0 )^n$
二元函数泰勒公式：
hessian 矩阵：
- 设 $n$ 多元实函数 $f(x_1,x_2,…,x_n )$ ,则其hessian 矩阵为：
$n$ 元函数泰勒公式：
- $f(x_1,x_2,…,x_n )$ ,在点 $X^0=(x_1^0,x_2^0,…,x_n^0)$ 的泰勒公式： $f(X)=f(X^0 )+∇f(X^0 )∇X^T+\frac{1}{2} ∇XA(X^0 )∇X^T+⋯+o((x-x_0 )^n )$ 其中 $∇f(X)$ 为 $f(X)$ 梯度，公式如下： $∇f(X)=[\frac{∂f}{∂x_1 },\frac{∂f}{∂x_2 },…,\frac{∂f}{∂x_n }]$ $∇X$ 公式如下： $∇X=[x_1-x_1^0,x_2-x_2^0,…,x_n-x_n^0 ]$

$x_(k+1)=x_k-\frac{∇f(X^0 )}{A(X^0) }$ 由上面公式我们可以看出牛顿迭代法与梯度下降算法的关系：
- 梯度下降算法的递推公式： $x_{k+1}=x_k-λ∇f(X^0 )$
- 则牛顿法就是步长为 $\frac{1}{A(X^0 )}$ 的梯度下降算法
优缺点：牛顿法的优点是收敛速度快，缺点是在用牛顿法进行最优化求解的时候需要求解Hessian矩阵，使得牛顿迭代求解的难度大大增加。