导数、微分、偏导数、全微分、方向导数、梯度的定义与关系

学习到机器学习线性回归和逻辑回归时遇到了梯度下降算法,然后顺着扯出了一堆高数的相关概念理论:导数、偏导数、全微分、方向导数、梯度,重新回顾它们之间的一些关系,从网上和教材中摘录相关知识点。

  1. 通过函数的极限定义出导数(以一元函数为例)
  2. 函数f(x)在点x0可微的充分必要条件是函数f(x)在点x0处可导
  3. 扩展到多元函数时,衍生出偏导数

导数

定义:设函数y=f(x)在点x0的某个领域内有定义,如果ΔyΔx在当Δx->0时极限存在,则称函数y=f(x)x0处可导,这个极限是函数y=f(x)x0处的导数

f(x0)=limΔx0ΔyΔx=limΔx0f(x0+Δx)f(x0)Δx

根据导数的定义,从某种意义上说导数的本质是一种极限

导数与导函数的关系是局部与整体的关系,导数通常是指一点,导函数则是指一个区间上的

  • 在直线运动场景中,若x表示时刻,y表示距离,函数f表示时间与距离的关系y=f(x),那么导数的含义就是在x0时刻的瞬时速度
  • 在直角坐标系中,y=f(x)表示一个曲线,导数的含义表示的是曲线在点x0处的切线的斜率

微分

定义:设函数y=f(x)在某个领域内有定义,x0x0+Δx在这区间内,如果增量

Δy=f(x0+x)f(x0)

可表示为
Δy=AΔx+o(Δx)

其中A是不依赖Δx的常数,o(Δx)是指Δx趋于0时的高阶无穷小,那么称函数y=f(x)在点x0可微的,而AΔx叫做函数在点x0相应于自变量增量Δx微分,记作dy,记作
dy=AΔx

高阶无穷小的定义:如果limαβ=0,就说β是比α高阶的无穷小,记作β=o(α)

微分与导数的关系

上式Δy=AΔx+o(Δx)两边同时除以Δx得到

ΔyΔx=A+o(Δx)Δx

Δx0时,上式左边就是导数的定义,而右边的o(Δx)Δx因为是高阶无穷小,所以会趋向于0,得到以下等式
A=limΔx0ΔyΔx=f(x0)

因此,如果函数f(x)在点x0可微,则f(x)在点x0也一定可导,且A=f(x0),反之,如果f(x)在点x0可导,存在下式
limΔx0ΔyΔx=f(x0)

根据极限与无穷小的关系转化上式,当Δx0
ΔyΔx=f(x0)+α

其中limΔx0a=0,即limΔx0aΔxΔx=0,aΔx=o(Δx),上式转化为下式(又回到了微分的定义)
Δy=f(x0)Δx+o(Δx)

因此,函数f(x)在点x0可微的充分必要条件是函数f(x)在点x0可导
dy=f(x0)Δx

偏导数

一元函数的变化率是导数,多元函数的自变量有多个,当某个自变量x变化而其它自变量固定时,这时候对变化的自变量x进行求导,就称为多元函数对于x的偏导数。
定义:设函数z=f(x,y)在点(x0,y0)的某一领域内有定义,当y固定于y0,而xx0处有增量Δx,相应的函数有增量

f(x0+Δx,y0)f(x0,y0)

如果
limΔx0f(x0+Δx,y0)f(x0,y0)Δx

存在,则称该极限为z=f(x,y)在点(x0,y0)处对x的偏导数

偏导数的几何意义

导数、微分、偏导数、全微分、方向导数、梯度的定义与关系

  • 偏导数fx(x0,y0)就是曲面被平面y=y0所截得的曲线在点M0处的切线M0Txx轴的斜率
  • 偏导数fy(x0,y0)就是曲面被平面x=x0所截得的曲线在点M0处的切线M0Tyy轴的斜率

很多时候要考虑多元函数沿任意方向的变化率,那么就引出了方向导数

全微分

参考上文微分的定义,与一元函数的情形一样,希望用自变量增量Δx,Δy来线性函数来代替函数的全增量Δz,从而减化计算
定义:设函数z=f(x,y)在点(x,y)的某领域内有定义如果函数在点(x,y)的全增量

Δz=f(x+Δx,y+Δy)f(x,y)

可心表示为
Δz=AΔx+BΔy+o(ρ)

其中A,B不依赖于Δx,Δyρ=(Δx)2+(Δy)2,则称函数z=f(x,y)在点(x,y)可微分,而AΔx+BΔy称为函数在点(x,y)全微分
dz=AΔx+BΔy

可微分与偏导数关系

基于上述全微分定义成立,存在某一点p(x+Δx,y+Δy)对于式子Δz=AΔx+BΔy+o(ρ)也成立,当Δy=0

f(Δx+x,y)f(x,y)=AΔX+o(|Δx|)

两边除以Δx并且令Δx0取极限
limΔx0f(x+Δx,y)f(x,y)Δx=A

这式子就是偏导数的定义形式啊,所以这说明了偏导数fx(x,y)存在且等于A,同理也可证fy(x,y)=B,由此推导出以下公式
dz=fx(x,y)Δx+fy(x,y)Δy

各偏导数的存在只是全微分存在的必要条件而非充分条件,即由全微分可证各偏导数存在,反之则不行

如果函数的各个偏数在点(x,y)是连续的,则函数可微分

方向导数

定义导数、偏导数、方向导数都是说如果说某条件下极限存在,谨记导数的本质是极限及代表函数的变化率,偏导数反映的是函数沿坐标轴方向的变化率,有所限制,所以引入方向导数表示沿任意一方向的变化率
定义:设lxOy平面以P0(x0,y0)为始点的一条射线,ei=(cosα,cosβ)是以射线同方向的单位向量

导数、微分、偏导数、全微分、方向导数、梯度的定义与关系

射线l的参数方程为

{x=x0+tcosαt0y=y0+tcosβt0

如果函数增量f(x0+tcosα,y0+tcosβ)f(x0,y0)PP0的距离|PP0|=t的比值,当点P沿着l趋于P0(t0+)极限存在,则称此极限为函数在点P0沿方向l的方向导数
fl|(x0,y0)=limt0+f(x0+tcosα,y0+tcosβ)f(x0,y0)t

方向导数与全微分的关系

由全微分的定义得到

f(x0+Δx,y0+Δy)f(x0,y0)=fx(x0,y0)Δx+fy(x0,y0)Δy+o((Δx)2+(Δy)2)

设点(x0+Δx,y0+Δy)在以(x0,y0)为起点的射线l(cosα,cosβl)上,则有Δx=tcosα,Δy=tcosβ,(Δx)2+(Δy)2=t,所以
limt0+f(x0+Δx,y0+Δy)f(x0,y0)t=fx(x0,y0)cosα+fy(x0,y0)cosβ

上式左侧就是方向导数定义形式,极限存在即方向导数存在,且其值等于右式

由此得到定理,如果函数f(x,y)在点P0(x0,y0)可微分,那么函数在该点沿任一方向l的方向导数存在

fl|(x0,y0)=fx(x0,y0)cosα+fy(x0,y0)cosβ

梯度

在平面上确定某一点可能存在无数个方向导数,我们怎样找到其中一个方向导数来描述函数最大变化率?
定义:在二元函数的情形, 设函数f(x,y)在平面区域D内具有一阶连续偏导数,对于每一点P0(x0,y0)D,都可以给出一个向量

fx(x0,y0)i+fy(x0,y0)j(fx(x0,y0),fy(x0,y0))

其中i,jx,y轴的方向向量,上述微量称为函数f(x,y)在点P0(x0,y0)的梯度记作
gradf(x0,y0)=fx(x0,y0)i+fy(x0,y0)j

由定义看到,梯度的方向是确定的,如果点P的坐标确定,那么梯度也大小也确定

如果函数f(x,y)在点P0(x0,y0)可微分,el=(cosα,cosβ)是方向l的方向向量(方向未确定)

fl|(x0,y0)=fx(x0,y0)cosα+fy(x0,y0)cosβ=grad f(x0,y0).el=|grad f(x0,y0)|cosθ

其中θ为向量grad f(x0,y0)与向量el的夹角,当θ=0时,即方向el与梯度grad f(x0,y0)的方向时,函数f(x,y)增加最快,函数在这个方向的方向导数达到最大值,这个值就是梯度grad f(x0,y0)的模,即
fl|(x0,y0)=|grad f(x0,y0)|

所以可以用沿梯度方向的方向导数来描述是函数最大变化率,即梯度方向是函数变化率最大的方向,在梯度定义的时候就已经赋予了它这个特性。