梯度下降法

一、基本概念

梯度下降法,就是利用负梯度方向来决定每次迭代的新的搜索方向,使得每次迭代能使待优化的目标函数逐步减小。梯度下降法是2范数下的最速下降法。 最速下降法的一种简单形式是:x(k+1)=x(k)-a*g(k),其中a称为学习速率,可以是较小的常数。g(k)是x(k)的梯度。

二、导数

(1)定义

 

设有定义域和取值都在实数域中的函数 梯度下降法。若 梯度下降法 在点 梯度下降法 的某个邻域内有定义,则当自变量 梯度下降法梯度下降法 处取得增量 梯度下降法(点 梯度下降法 仍在该邻域内)时,相应地函数 梯度下降法 取得增量 梯度下降法;如果 梯度下降法梯度下降法 之比当 梯度下降法 时的极限存在,则称函数 梯度下降法 在点 梯度下降法可导,并称这个极限为函数 梯度下降法 在点 梯度下降法 处的导数,记为 梯度下降法,即:

 

梯度下降法

也可记作 梯度下降法梯度下降法梯度下降法梯度下降法

对于一般的函数,如果不使用增量的概念,函数 梯度下降法 在点 梯度下降法 处的导数也可以定义为:当定义域内的变量 梯度下降法 趋近于 梯度下降法 时,

梯度下降法

的极限。也就是说,

梯度下降法

 

 

 

 

导数反应的变化率

一个函数在某一点的导数描述了这个函数在这一点附近的变化率。导数的本质是通过极限的概念对函数进行局部的线性逼近。当函数梯度下降法的自变量在一点梯度下降法上产生一个增量梯度下降法时,函数输出值的增量与自变量增量梯度下降法的比值在梯度下降法趋于0时的极限如果存在,即为梯度下降法梯度下降法处的导数,记作梯度下降法梯度下降法梯度下降法

 

(2)几何意义:

 

 

梯度下降法 

一个实值函数的图像曲线。函数在一点的导数等于它的图像上这一点处之切线的斜率,导数是函数的局部性质。不是所有的函数都有导数,一个函数也不一定在所有的点上都有导数。若某函数在某一点导数存在,则称其在这一点可导,否则称为不可导。如果函数的自变量和取值都是实数的话,那么函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。

具体来说:

当函数定义域和取值都在实数域中的时候,导数可以表示函数的曲线上的切线斜率。如下图所示,设梯度下降法为曲线上的一个定点,梯度下降法为曲线上的一个动点。当梯度下降法沿曲线逐渐趋向于点梯度下降法时,并且割线梯度下降法的极限位置梯度下降法存在,则称梯度下降法为曲线在梯度下降法处的切线。

若曲线为一函数梯度下降法的图像,那么割线梯度下降法(蓝色)的斜率为:

梯度下降法

梯度下降法处的切线梯度下降法(红色),即梯度下降法的极限位置存在时,此时梯度下降法梯度下降法,则梯度下降法的斜率梯度下降法为:

梯度下降法

上式与一般定义中的导数定义完全相同,也就是说梯度下降法,因此,导数的几何意义即曲线梯度下降法在点梯度下降法处切线的斜率 

 

梯度下降法

(3)导函数

 

 导数是一个数,是指函数 梯度下降法 在点 梯度下降法 处导函数的函数值,若函数 梯度下降法 在其定义域包含的某区间 梯度下降法 内每一个点都可导,那么也可以说函数梯度下降法 在区间 梯度下降法 内可导,这时对于 梯度下降法 内每一个确定的梯度下降法 值,都对应着 梯度下降法 的一个确定的导数值,如此一来就构成了一个新的函数梯度下降法,这个函数称作原来函数 梯度下降法导函数,记作:梯度下降法梯度下降法 或者 梯度下降法,通常也可以说导函数为导数

 

 

 

 

 

 3、一元函数微分

微分和导数是两个不同的概念。但是对一元函数来说,可微与可导是完全等价的概念。可微的函数,其微分等于导数乘以自变量的微分梯度下降法,换句话说,函数的微分与自变量的微分之商等于该函数的导数。因此,导数也叫做微商。于是函数梯度下降法的微分又可记作梯度下降法[

 

(1)微分反应的变化率

微分可以近似地描述当函数自变量的取值作足够小的改变时,函数的值是怎样改变的。当某些函数梯度下降法的自变量梯度下降法有一个微小的改变梯度下降法时,函数的变化可以分解为两个部分。一个部分是线性部分:在一维情况下,它正比于自变量的变化量梯度下降法,可以表示成梯度下降法和一个与梯度下降法无关,只与函数梯度下降法梯度下降法有关的量的乘积;在更广泛的情况下,它是一个线性映射作用在梯度下降法上的值。另一部分是比梯度下降法更高阶的无穷小,也就是说除以梯度下降法后仍然会趋于零。当改变量梯度下降法很小时,第二部分可以忽略不计,函数的变化量约等于第一部分,也就是函数在梯度下降法处的微分,记作梯度下降法梯度下降法。如果一个函数在某处具有以上的性质,就称此函数在该点可微。

(2)定义

设函数梯度下降法在某区间梯度下降法内有定义。对于梯度下降法内一点梯度下降法,当梯度下降法变动到附近的梯度下降法(也在此区间内)时。如果函数的增量梯度下降法可表示为 梯度下降法(其中梯度下降法是不依赖于梯度下降法的常数),而梯度下降法是比梯度下降法高阶的无穷小,那么称函数梯度下降法在点梯度下降法是可微的,且梯度下降法称作函数在点梯度下降法相应于自变量增量梯度下降法的微分,记作梯度下降法,即梯度下降法梯度下降法梯度下降法线性主部[1]:141

通常把自变量梯度下降法的增量梯度下降法称为自变量的微分,记作梯度下降法,即梯度下降法

(3)几何意义

 

函数在一点的微分。其中红线部分是微分量梯度下降法,而加上灰线部分后是实际的改变量梯度下降法

 

梯度下降法

 

 

梯度下降法曲线梯度下降法上的点梯度下降法在横坐标上的增量,梯度下降法曲线在点梯度下降法对应梯度下降法在纵坐标上的增量,梯度下降法是曲线在点梯度下降法切线对应梯度下降法在纵坐标上的增量。当梯度下降法很小时,梯度下降法梯度下降法要小得多(高阶无穷小),因此在点梯度下降法附近,我们可以用切线段来近似代替曲线段。

 

 

(4)关于无穷小量

 

A)

如果一个序列 梯度下降法 如果满足如下性质:

 

用极限符号把上述性质简记为

梯度下降法

则序列 梯度下降法 被称为 梯度下降法 时的无穷小量[

B)阶的比较

梯度下降法梯度下降法 为两个序列,而且都是 梯度下降法时的无穷小量。虽然它们在 梯度下降法 趋于无穷时都趋于零,但趋于零的速度是有区别的。可以用如下方式比较它们的速度:

  • 若对于任意正实数 梯度下降法 ,存在正整数 梯度下降法 使得

 

梯度下降法


梯度下降法 时总是成立,则称 梯度下降法梯度下降法高阶无穷小,记作

 

梯度下降法


其中的 梯度下降法 有时也被省略不写。

在上述定义中,也可以说无穷小量 a 的阶要比 b 的要高,或者说 ab 更快地趋于零

 


 4、多元函数微分

(1) 欧几里得空间

 

梯度下降法表示实数域。对任意一个正整数n,实数的n元组的全体构成了梯度下降法上的一个n维向量空间,用梯度下降法来表示。有时称之为实数坐标空间梯度下降法中的元素写作梯度下降法,这里的梯度下降法都是实数。梯度下降法作为向量空间,其运算是这样定义的:

梯度下降法
梯度下降法

 欧几里得空间,则是在梯度下降法上再添加一些内容:欧几里得结构。
为了做欧氏几何,人们希望能讨论两点间的距离,直线或向量间的夹角。一个自然的方法是在梯度下降法上,对任意两个向量梯度下降法梯度下降法,引入它们的“标准内积”梯度下降法(一些文献上称为点积,记为梯度下降法):

梯度下降法

也就是说,梯度下降法中的任意两个向量对应着一个实数值。 我们把梯度下降法及这样定义的内积,称为梯度下降法上的欧几里得结构;此时的梯度下降法也被称为n维欧几里得空间,内积"<,>"称为欧氏内积

利用这个内积,可以建立距离、长度、角度等概念:

  • 向量梯度下降法的长度:
梯度下降法

这里的长度函数满足范数所需的性质,故又称为梯度下降法上的欧氏范数

  • 梯度下降法梯度下降法所夹的内角以下列式子给出
梯度下降法

这里的梯度下降法为反余弦函数。

  • 最后,可以利用欧氏范数来定义梯度下降法上的距离函数,或称度量
梯度下降法

这个距离函数称为欧几里得度量,它可以看作勾股定理一种形式。

这里的梯度下降法仅指实数向量空间,而加入了如上定义的欧几里得结构后才称为欧氏空间;有些作者会用符号梯度下降法来标记之。欧氏结构使梯度下降法具有这些空间结构:内积空间、希尔伯特空间、赋范向量空间以及度量空间。

 

 

(2)开集

开集是指不包含自己边界点的集合。或者说,开集把它所包含的任何一点的充分小的邻域也包含在其自身之中。开集的概念一般与拓扑概念是紧密联系着的,通常先公理化开集,然后通过其定义边界的概念。

 

函数分析

在Rn中点集是开集,如果在这个集合的所有点P都是内部点。

 

 

内点

S 为欧几里得空间的子集。若存在以 x 为中心的开球被包含于 S,则 xS 的内点。

这个定义可以推广到度量空间 X 的任意子集 S。具体地说,对具有度量 d 的度量空间 XxS 的内点,若对任意 r > 0,存在 y 属于 S,且 d(x, y) < r

 点 xS 的内部点,因为它包含在 S 内并有一个开球围绕着它。点 yS 的边界上

 

梯度下降法

欧几里得空间

n维欧几里得空间Rn的子集U是开集,如果给定任何在U中的点x,存在一个实数ε > 0使得,如果给定任何Rn中点y,有着从x到它的欧几里得距离小于ε,则y也属于U。等价的说,U是开集,如果所有U中的点有包含在U中的邻域。

 

 

(3)定义

梯度下降法是从欧几里得空间Rn(或者任意一个内积空间)中的一个开集梯度下降法射到Rm的一个函数。对于梯度下降法中的一点梯度下降法及其在梯度下降法中的邻域梯度下降法中的点梯度下降法。如果存在线性映射梯度下降法使得对任意这样的梯度下降法,

梯度下降法

那么称函数梯度下降法在点梯度下降法处可微。线性映射梯度下降法叫做梯度下降法在点梯度下降法处的微分,记作梯度下降法

如果梯度下降法在点梯度下降法处可微,那么它在该点处一定连续,而且在该点的微分只有一个。为了和偏导数区别,多元函数的微分也叫做全微分全导数

当函数在某个区域的每一点梯度下降法都有微分梯度下降法时,可以考虑将梯度下降法映射到梯度下降法的函数:

梯度下降法

这个函数一般称为微分函数

梯度下降法

全微分(英语:total derivative)是微积分学的一个概念,指多元函数的全增量梯度下降法的线性主部,记为梯度下降法。例如,对于二元函数梯度下降法,设f在点梯度下降法的某个邻域内有定义,梯度下降法为该邻域内的任意一点,则该函数在点梯度下降法的全增量可表示为

梯度下降法

其中梯度下降法梯度下降法仅与梯度下降法梯度下降法有关,而与梯度下降法梯度下降法无关,梯度下降法。若梯度下降法是当梯度下降法时的高阶无穷小,则称此函数梯度下降法在点 梯度下降法可微分,而梯度下降法即为函数梯度下降法在点梯度下降法的全微分,记作

梯度下降法

梯度下降法

(4)邻域

是拓扑空间中的基本概念。直觉上说,一个点的邻域是包含这个点的集合,并且该性质是外延的:你可以稍微“抖动”一下这个点而不离开这个集合。

 

在平面上集合 V 是点 p 的邻域,如果围绕 p 小圆盘包含在 V

 

梯度下降法

 

如果 X 是拓扑空间 而 pX 中的一个点,p邻域是集合 V,它包含了包含 p 的开集 U

梯度下降法

注意 V 自身不必须是开集。如果 V 是开集则它被称为开邻域。某些作者要求邻域是开集,所以注意约定是很重要的。

一个点的所有邻域的集合叫做在这点上的邻域系统。

如果 SX 的子集,S邻域是集合 V,它包含了包含 S 的开集 U。可得出集合 VS 的邻域,当且仅当它是在 S 中的所有点的邻域。

 

 

 

在度量空间 M = (X,d) 中,集合 V 是点 p邻域,如果存在以 p 为中心和半径为 r 的开球,

梯度下降法

它被包含在 V 中。

V 叫做集合 S一致邻域,如果存在正数 r 使得对于 S 的所有元素 p

梯度下降法

被包含在 V 中。

对于 r>0 集合 Sr-邻域 梯度下降法X 中与 S 的距离小于 r 的所有点的集合(或等价的说 梯度下降法 是以 S 中一个点为中心半径为 r 的所有开球的并集)。

可直接得出 r-邻域是一致邻域,并且一个集合是一致邻域当且仅当它包含对某个 r 值的 r-邻域。

梯度下降法

平面上的集合 SS 的一致邻域 V

 

 

五、梯度

1、相关概念

假如一个空间中的每一点的属性都可以以一个标量来代表的话,那么这个场就是一个标量场。

假如一个空间中的每一点的属性都可以以一个向量来代表的话,那么这个场就是一个向量场

标量场中某一点上的梯度指向标量场增长最快的方向,梯度的长度是这个最大的变化率。

梯度一词有时用于斜度,也就是一个曲面沿着给定方向的倾斜程度。

2、计算

一个标量函数梯度下降法的梯度记为:

梯度下降法梯度下降法

其中梯度下降法(nabla)表示矢量微分算子。

在三维情况,该表达式在直角坐标中扩展为

梯度下降法

 

 

六、梯度下降法

梯度下降法,基于这样的观察:如果实值函数 梯度下降法 在点 梯度下降法 处可微且有定义,那么函数 梯度下降法梯度下降法 点沿着梯度相反的方向 梯度下降法 下降最快。

因而,如果

梯度下降法

对于 梯度下降法 为一个够小数值时成立,那么 梯度下降法

考虑到这一点,我们可以从函数 梯度下降法 的局部极小值的初始估计 梯度下降法 出发,并考虑如下序列 梯度下降法 使得

梯度下降法

因此可得到

梯度下降法

如果顺利的话序列 梯度下降法 收敛到期望的极值。注意每次迭代步长 梯度下降法 可以改变。