导数、微分、偏导数、全微分、方向导数、梯度的定义与关系

学习到机器学习线性回归和逻辑回归时遇到了梯度下降算法，然后顺着扯出了一堆高数的相关概念理论：导数、偏导数、全微分、方向导数、梯度，重新回顾它们之间的一些关系，从网上和教材中摘录相关知识点。

通过函数的极限定义出导数(以一元函数为例)
函数f(x)在点x0可微的充分必要条件是函数f(x)在点x0处可导
扩展到多元函数时，衍生出偏导数

导数

定义：设函数 $y = f (x)$ 在点 $x_{0}$ 的某个领域内有定义，如果 $\frac{Δ y}{Δ x}$ 在当 $Δ x$ ->0时极限存在，则称函数 $y = f (x)$ 在 $x_{0}$ 处可导，这个极限是函数 $y = f (x)$ 在 $x_{0}$ 处的导数

f^{'} (x_{0}) = lim_{Δ x \to 0} \frac{Δ y}{Δ x} = lim_{Δ x \to 0} \frac{f (x_{0} + Δ x) - f (x_{0})}{Δ x}

根据导数的定义，从某种意义上说导数的本质是一种极限

导数与导函数的关系是局部与整体的关系，导数通常是指一点，导函数则是指一个区间上的

在直线运动场景中，若x表示时刻，y表示距离，函数f表示时间与距离的关系 $y = f (x)$ ,那么导数的含义就是在 $x_{0}$ 时刻的瞬时速度
在直角坐标系中， $y = f (x)$ 表示一个曲线，导数的含义表示的是曲线在点 $x_{0}$ 处的切线的斜率

微分

定义：设函数 $y = f (x)$ 在某个领域内有定义， $x_{0}$ 及 $x_{0} + Δ x$ 在这区间内，如果增量

Δ y = f (x_{0} + x) - f (x_{0})

可表示为

Δ y = A Δ x + o (Δ x)

其中A是不依赖

Δ x

的常数，

o (Δ x)

是指

Δ x

趋于0时的高阶无穷小，那么称函数

y = f (x)

在点

x_{0}

是可微的，而

A Δ x

叫做函数在点

x_{0}

相应于自变量增量

Δ x

的微分，记作

d y

，记作

d y = A Δ x

高阶无穷小的定义：如果 $lim \frac{α}{β} = 0$ ，就说 $β$ 是比 $α$ 高阶的无穷小，记作 $β = o (α)$

微分与导数的关系

上式 $Δ y = A Δ x + o (Δ x)$ 两边同时除以 $Δ x$ 得到

\frac{Δ y}{Δ x} = A + \frac{o (Δ x)}{Δ x}

当

Δ x \to 0

时,上式左边就是导数的定义，而右边的

\frac{o (Δ x)}{Δ x}

因为是高阶无穷小，所以会趋向于0，得到以下等式

A = lim_{Δ x \to 0} \frac{Δ y}{Δ x} = f^{'} (x_{0})

因此，如果函数

f (x)

在点

x_{0}

可微，则

f (x)

在点

x_{0}

也一定可导，且

A = f^{'} (x_{0})

，反之，如果

f (x)

在点

x_{0}

可导，存在下式

lim_{Δ x \to 0} \frac{Δ y}{Δ x} = f^{'} (x_{0})

根据极限与无穷小的关系转化上式，当

Δ x \to 0

时

\frac{Δ y}{Δ x} = f^{'} (x_{0}) + α

其中

lim_{Δ x \to 0} a = 0

，即

lim_{Δ x \to 0} \frac{a Δ x}{Δ x} = 0

a Δ x = o (Δ x)

，上式转化为下式(又回到了微分的定义)

Δ y = f^{'} (x_{0}) Δ x + o (Δ x)

因此，函数 $f (x)$ 在点 $x_{0}$ 可微的充分必要条件是函数 $f (x)$ 在点 $x_{0}$ 可导

d y = f^{'} (x_{0}) Δ x

偏导数

一元函数的变化率是导数，多元函数的自变量有多个，当某个自变量x变化而其它自变量固定时，这时候对变化的自变量x进行求导，就称为多元函数对于x的偏导数。
定义：设函数 $z = f (x, y)$ 在点 $(x_{0}, y_{0})$ 的某一领域内有定义，当 $y$ 固定于 $y_{0}$ ，而 $x$ 在 $x_{0}$ 处有增量 $Δ x$ ，相应的函数有增量

f (x_{0} + Δ x, y_{0}) - f (x_{0}, y_{0})

如果

lim_{Δ x \to 0} \frac{f (x_{0} + Δ x, y_{0}) - f (x_{0}, y_{0})}{Δ x}

存在，则称该极限为

z = f (x, y)

在点

(x_{0}, y_{0})

处对

x

的偏导数

偏导数的几何意义

偏导数 $f_{x} (x_{0}, y_{0})$ 就是曲面被平面 $y = y_{0}$ 所截得的曲线在点 $M_{0}$ 处的切线 $M_{0} T_{x}$ 对 $x$ 轴的斜率
偏导数 $f_{y} (x_{0}, y_{0})$ 就是曲面被平面 $x = x_{0}$ 所截得的曲线在点 $M_{0}$ 处的切线 $M_{0} T_{y}$ 对 $y$ 轴的斜率

很多时候要考虑多元函数沿任意方向的变化率，那么就引出了方向导数

全微分

参考上文微分的定义，与一元函数的情形一样，希望用自变量增量 $Δ x, Δ y$ 来线性函数来代替函数的全增量 $Δ z$ ，从而减化计算
定义：设函数 $z = f (x, y)$ 在点 $(x, y)$ 的某领域内有定义如果函数在点 $(x, y)$ 的全增量

Δ z = f (x + Δ x, y + Δ y) - f (x, y)

可心表示为

Δ z = A Δ x + B Δ y + o (ρ)

其中

A, B

不依赖于

Δ x, Δ y

，

ρ = \sqrt{(Δ x)^{2} + (Δ y)^{2}}

，则称函数

z = f (x, y)

在点

(x, y)

处可微分，而

A Δ x + B Δ y

称为函数在点

(x, y)

的全微分

d z = A Δ x + B Δ y

可微分与偏导数关系

基于上述全微分定义成立，存在某一点 $p^{'} (x + Δ x, y + Δ y)$ 对于式子 $Δ z = A Δ x + B Δ y + o (ρ)$ 也成立，当 $Δ y = 0$ 时

f (Δ x + x, y) - f (x, y) = A Δ X + o (| Δ x |)

两边除以

Δ x

并且令

Δ x \to 0

取极限

lim_{Δ x \to 0} \frac{f (x + Δ x, y) - f (x, y)}{Δ x} = A

这式子就是偏导数的定义形式啊，所以这说明了偏导数

f_{x} (x, y)

存在且等于

A

，同理也可证

f_{y} (x, y) = B

，由此推导出以下公式

d z = f_{x} (x, y) Δ x + f_{y} (x, y) Δ y

各偏导数的存在只是全微分存在的必要条件而非充分条件，即由全微分可证各偏导数存在，反之则不行

如果函数的各个偏数在点 $(x, y)$ 是连续的，则函数可微分

方向导数

定义导数、偏导数、方向导数都是说如果说某条件下极限存在，谨记导数的本质是极限及代表函数的变化率，偏导数反映的是函数沿坐标轴方向的变化率，有所限制，所以引入方向导数表示沿任意一方向的变化率
定义：设 $l$ 是 $x O y$ 平面以 $P_{0} (x_{0}, y_{0})$ 为始点的一条射线， $e_{i} = (c o s α, c o s β)$ 是以射线同方向的单位向量

射线 $l$ 的参数方程为

{\begin{cases} x = x_{0} + t c o s α ， t \geq 0 \\ y = y_{0} + t c o s β ， t \geq 0 \end{cases}

如果函数增量

f (x_{0} + t c o s α, y_{0} + t c o s β) - f (x_{0}, y_{0})

与

P

到

P_{0}

的距离

| P P_{0} | = t

的比值，当点

P

沿着

l

趋于

P_{0} (即 t \to 0^{+})

时极限存在，则称此极限为函数在点

P_{0}

沿方向

l

的方向导数

\frac{\partial f}{\partial l} |_{(x_{0}, y_{0})} = lim_{t \to 0^{+}} \frac{f (x_{0} + t c o s α, y_{0} + t c o s β) - f (x_{0}, y_{0})}{t}

方向导数与全微分的关系

由全微分的定义得到

f (x_{0} + Δ x, y_{0} + Δ y) - f (x_{0}, y_{0}) = f_{x} (x_{0}, y_{0}) Δ x + f_{y} (x_{0}, y_{0}) Δ y + o (\sqrt{(Δ x)^{2} + (Δ y)^{2}})

设点

(x_{0} + Δ x, y_{0} + Δ y)

在以

(x_{0}, y_{0})

为起点的射线

l (c o s α, c o s β 是 l 的 方 向 余 弦)

上，则有

Δ x = t c o s α

Δ y = t c o s β

\sqrt{(Δ x)^{2} + (Δ y)^{2}} = t

，所以

lim_{t \to 0^{+}} \frac{f (x_{0} + Δ x, y_{0} + Δ y) - f (x_{0}, y_{0})}{t} = f_{x} (x_{0}, y_{0}) c o s α + f_{y} (x_{0}, y_{0}) c o s β

上式左侧就是方向导数定义形式，极限存在即方向导数存在，且其值等于右式

由此得到定理，如果函数 $f (x, y)$ 在点 $P_{0} (x_{0}, y_{0})$ 可微分，那么函数在该点沿任一方向 $l$ 的方向导数存在

\frac{\partial f}{\partial l} |_{(x_{0}, y_{0})} = f_{x} (x_{0}, y_{0}) c o s α + f_{y} (x_{0}, y_{0}) c o s β

梯度

在平面上确定某一点可能存在无数个方向导数，我们怎样找到其中一个方向导数来描述函数最大变化率？
定义：在二元函数的情形，设函数 $f (x, y)$ 在平面区域D内具有一阶连续偏导数，对于每一点 $P_{0} (x_{0}, y_{0}) \in D$ ，都可以给出一个向量

f_{x} (x_{0}, y_{0}) i + f_{y} (x_{0}, y_{0}) j 或 用 坐 标 表 示 (f_{x} (x_{0}, y_{0}), f_{y} (x_{0}, y_{0}))

其中

i, j

为

x, y

轴的方向向量，上述微量称为函数

f (x, y)

在点

P_{0} (x_{0}, y_{0})

的梯度记作

g r a d f (x_{0}, y_{0}) = f_{x} (x_{0}, y_{0}) i + f_{y} (x_{0}, y_{0}) j

由定义看到，梯度的方向是确定的，如果点 $P$ 的坐标确定，那么梯度也大小也确定

如果函数 $f (x, y)$ 在点 $P_{0} (x_{0}, y_{0})$ 可微分， $e_{l} = (c o s α, c o s β)$ 是方向 $l$ 的方向向量(方向未确定)

\frac{\partial f}{\partial l} |_{(x_{0}, y_{0})} = f_{x} (x_{0}, y_{0}) c o s α + f_{y} (x_{0}, y_{0}) c o s β = g r a d f (x_{0}, y_{0}) . e_{l} = | g r a d f (x_{0}, y_{0}) | c o s θ

其中

θ

为向量

g r a d f (x_{0}, y_{0})

与向量

e_{l}

的夹角，当

θ = 0

时，即方向

e_{l}

与梯度

g r a d f (x_{0}, y_{0})

的方向时，函数

f (x, y)

增加最快，函数在这个方向的方向导数达到最大值，这个值就是梯度

g r a d f (x_{0}, y_{0})

的模，即

\frac{\partial f}{\partial l} |_{(x_{0}, y_{0})} = | g r a d f (x_{0}, y_{0}) |

所以可以用沿梯度方向的方向导数来描述是函数最大变化率，即梯度方向是函数变化率最大的方向，在梯度定义的时候就已经赋予了它这个特性。

导数、微分、偏导数、全微分、方向导数、梯度的定义与关系

导数

微分

微分与导数的关系

偏导数

全微分

可微分与偏导数关系

方向导数

方向导数与全微分的关系

梯度

相关推荐