正则化(1) L1和L2正则化

正则化(Regularization)

参考:
https://blog.csdn.net/*_shi/article/details/52433975
https://blog.csdn.net/u012162613/article/details/44261657

1. 正则化的概念

规则化 vs 正则化
- 规则化,顾名思义,给你的模型加入某些规则,来达到某些目的(在机器学习或深度学习中是为了防止过拟合)
- 正则化,与规则化是同一个意思。

正则项一般加在损失函数后面,英文是l1-norm和l2-norm,中文称作L1正则化L2正则化,或者L1范数L2范数

2. L1范数和L2范数

  • L1范数:||ω||1,指权值向量ω中各个元素的绝对值之和
  • L2范数:||ω||2,指权值向量ω中各个元素的平方和然后再求平方根

3. 线性回归的正则化

  • 线性回归+L1正则项:Lasso回归
  • 线性回归+L2正则项:Ridge回归(岭回归)

4. L1和L2正则化的作用

  • L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择。
  • L2正则化可以防止模型过拟合。(一定程度上,L1也可以防止过拟合)。

L1正则化-特征选择

1. 稀疏模型与特征选择

L1正则化有助于生成一个稀疏权值矩阵,进而可以用于特征选择。那么,为什么要生成一个稀疏矩阵?

稀疏矩阵指的是很多元素为0,只有少数元素是非零值的矩阵,即得到的线性回归模型的大部分系数都是0. 通常机器学习中特征数量很多,例如文本处理时,如果将一个词组(term)作为一个特征,那么特征数量会达到上万个(bigram)。在预测或分类时,那么多特征显然难以选择,但是如果代入这些特征得到的模型是一个稀疏模型,表示只有少数特征对这个模型有贡献,绝大部分特征是没有贡献的,或者贡献微小(因为它们前面的系数是0或者是很小的值,即使去掉对模型也没有什么影响),此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。

举个栗子,患病回归模型y=ω1x1+ω2x2+...+ω1000x1000+b,通过学习,最后学习到的ω就只有很少几个非零元素,例如只有5个非零的ωi。也就是说,患不患这种病只和这5个因素有关,那医生就好分析多了。

2. L1正则化的图形理解

参考机器学习中正则化项L1和L2的直观理解
假设有如下带L1正则化的损失函数:

(1)J=J0+αw|w|
其中J0是原始的损失函数,加号后面的一项是L1正则化项,α正则化系数。注意到L1正则化是权值的绝对值之和,J是带有绝对值符号的函数,因此J是不完全可微的。机器学习的任务就是要通过一些方法(比如梯度下降)求出损失函数的最小值。当我们在原始损失函数J0后添加L1正则化项时,相当于对J0做了一个约束。

L=αω|ω|
J=J0+L
此时我们的任务变成在L约束下求出J0取最小值的解。

考虑二维的情况,即只有两个权值w1w2,此时L=|w1|+|w2|,对于梯度下降法,求解J0的过程可以画出等值线,同时L1正则化的函数L
也可以在w1w2的二维平面上画出来。如下图:
正则化(1) L1和L2正则化
图1 L1正则化

图中等值线是J0的等值线,黑色方形是L函数的图形(也就是约束条件)。在图中,当J0等值线与L图形首次相交的地方就是最优解。上图中J0与L在L的一个顶点处相交,这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象,因为L函数有很多『突出的角』(二维情况下四个,多维情况下更多),J0与这些角接触的机率会远大于与L其它部位接触的机率,而在这些角上,会有很多权值等于0,这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。

而正则化前面的系数α,可以控制L图形的大小。α越小,L的图形越大(上图中的黑色方框);α越大,L的图形就越小,可以小到黑色方框只超出原点范围一点点,这时最优点的值(w1,w2)=(0,w)中的ω可以取到很小的值。也就是说,L1正则化在一定程度上可以防止过拟合(下文有说明ω值小就可以防止过拟合的原因)。

3. L1正则化的公式推导

参考正则化方法:L1和L2 regularization、数据集扩增、dropout

J=J0+αω|ω|
写成:
C=C0+λnω|ω|
(即:J用C表示,αλn表示)
计算导数:
Cω=C0ω+λnsgn(ω)
上式中sgn(ω)表示ω的符号。那么权重ω的更新规则为:
ωω=ωηCω=ωη(C0ω+λnsgn(ω))=ωηC0ωηλnsgn(ω)
比原始的更新规则多出了ηλnsgn(ω)这一项。当ω为正时,更新后的ω变小。当ω为负时,更新后的ω变大——因此它的效果就是让ω往0靠,使网络中的权重尽可能为0,也就相当于减小了网络复杂度,防止过拟合。

另外,上面没有提到一个问题,当ω为0时怎么办?当ω等于0时,|ω|是不可导的,所以我们只能按照原始的未经正则化的方法去更新ω,这就相当于去掉ηλnsgn(ω)这一项,所以我们可以规定sgn(0)=0,这样就把ω=0的情况也统一进来了。(在编程的时候,令sgn(0)=0,sgn(ω>0)=1,sgn(ω<0)=-1)

L2正则化-防止过拟合

1. L2正则化的图形理解

假设有如下带L2正则化的损失函数:

(2)J=J0+αww2
同样可以画出他们在二维平面上的图形,如下:
正则化(1) L1和L2正则化
图2 L2正则化

二维平面下L2正则化的函数图形是个圆,与方形相比,被磨去了棱角。因此J0与L相交时使得w1w2等于零的机率小了许多,这就是为什么L2正则化不具有稀疏性的原因。

2. 抗扰动能力强——参数很小

损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项。通常将一般形式的损失函数(参考机器学习总结(一):常见的损失函数)表示为如下:

(1)θ=argmin1Ni=1NL(yi,f(xi;θi))+λΦ(θ)
我们既要让训练误差(上式第一项)最小,又要让模型尽可能简单(上式第二项)。于是我们有个朴素的想法:那就让权重ω(在上式中为θ)多几个为0(或者接近于0,说明该节点影响很小)就好了,相当于在神经网络中删掉一些节点,这样模型就变得简单了。
正则化(1) L1和L2正则化
拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,专业一点的说法是『抗扰动能力强』。

3. L2正则化可以获得值很小的参数

以线性回归中的梯度下降法为例。假设要求的参数为θhθ(x)是我们的假设函数,那么线性回归的代价函数如下:

(3)J(θ)=12mi=1m(hθ(x(i))y(i))2
那么在梯度下降法中,最终用于迭代计算参数θ的迭代式为:
(4)θj:=θjα1mi=1m(hθ(x(i))y(i))xj(i)
(上式在logistic回归损失函数与梯度下降中有介绍)
其中α是learning rate. 上式是没有添加L2正则化项的迭代公式,如果在原始代价函数之后添加L2正则化,则迭代公式会变成下面的样子:
(5)θj:=θj(1αλm)α1mi=1m(hθ(x(i))y(i))xj(i)
其中λ就是正则化参数
从上式可以看到,与未添加L2正则化的迭代公式相比,每一次迭代,θj都要先乘以一个小于1的因子,从而使得θj不断减小,因此总得来看,θ是不断减小的。因此L2正则化可以使模型简单,防止过拟合。

最开始也提到L1正则化一定程度上也可以防止过拟合。之前做了解释,当L1的正则化系数很小时,得到的最优解会很小,可以达到和L2正则化类似的效果。

4. L2正则化权重衰减的公式推导

(2)J=J0+αww2
写成
C=C0+λ2nωω2
(即:J用C表示,αλ2n表示,为了后面求导的结果方便。)
计算导数:
Cω=C0ω+λnω

ωω=ωηCω=ωη(C0ω+λnω)=ωηC0ωηλnω=(1ηλn)ωηC0ω
在不使用L2正则化时,求导结果中ω前系数为1,现在ω前面系数为 1ηλn ,因为η、λ、n都是正的,所以 1ηλn小于1,它的效果是减小ω,这也就是权重衰减(weight decay)的由来。当然考虑到后面的导数项,ω最终的值可能增大也可能减小。

到目前为止,我们只是解释了L2正则化项有让ω“变小”的效果,但是还没解释为什么ω“变小”可以防止overfitting?一个所谓“显而易见”的解释就是:更小的权值ω,从某种意义上说,表示网络的复杂度更低,对数据的拟合刚刚好(这个法则也叫做奥卡姆剃刀),而在实际应用中,也验证了这一点,L2正则化的效果往往好于未经正则化的效果。