林轩田之机器学习课程笔记( how can machines learn better之regularization)(32之14)
欢迎转载,可以关注博客:http://blog.****.net/cqy_chen
概要
上节课讲到了机器学习中发生了过拟合现象,当资料量不多和模型过于复杂,有噪音就容易发生过拟合,本节主要讲解如何应对过拟合现象。
正则化假设空间
首先看过拟合现象:
能不能从高次的多项式退回到低次的多项式呢?
假设空间从高次回到低次,那么假设空间的集合就小了,那么就不容易发生过拟合了。
这就是正则化要做的事情,那么如何从10次多项式退回到2次多项式呢?
在10次多项式中,x表示原始的空间向量。
而在二次式中:
所以要从10次的多项式回退到2次的多项式,就是相当于令
所以如果在10次空间中,如果不要过拟合,继续采用2次式的假设空间,我们可以限定权重条件:
那么这里我们稍微放松一下条件,假设主要限定任意的8个权重为0就好了,而不是最高次的8个为0。就是现在的假设空间也是在10次空间中,但是限定只有3个是有值的(加上常数项)。
我们可以看到新的假设空间是处于2次式和10次式之间。这样我们通过条件的限制将10次的空间进行了回退
但是我们的条件是一个NP难的问题,所以还需要进一个优化。我们如果将这些权重的大小限定在一个范围内呢?
其实我们可以看到在限定了所有权重在一个范围内,和上面的限定部分参数为0是有重叠的。
当我们的这个常量C不断的变换,这个假设空间就不断的变换。
这个假设空间就被称为正则化的假设空间。
权重递减正则化
那么通过规则化,如何求解呢?
这里以回归为例:
目标函数:
那么要求解这个目标方程。可以先看直观化的解释:
这里相当于在高维空间中,权重被限定在了一个球体内,在采用梯度下降求解的过程中,如果最佳的点不在球体内,权重就沿着这个球的表面滚动,直到梯度和球的法向量平行才停止。
所以我们得到:
这里添加系数主要是为了推导方便,其实就是对应拉格朗日系数。
这里固定
这个在正则化中称为ridge,还有lasso。
可以参考:
http://blog.****.net/xbinworld/article/details/44276389
上面的解法其实推回到拉格朗日式子是:
这里将
当我们采用普通的多项式转换,可能导致一些问题,比如映射到高维的时候,X很小,经过高次运算就更小了。需要使用Legendre polynomials。如下图:
关于Legendre polynomials请参考:
https://en.wikipedia.org/wiki/Legendre_polynomials
正则化和VC理论
上面讲到了正则化,那么正则化和VC理论有什么关系呢?
其实我们知道,添加正则化导致假设空间限定在一个范围内, 就是复杂度降低了。等同于VC维降低。
一般的正则化
如何来添加正则化项呢?如果我们知道:
1)目标函数的样子,当然可以喽
2)知道了噪音的分布,那就可以提取那些更加平滑的点来进行训练。
3)或者算法更容易进行优化。
这是在机器学习涉及到的三个问题:
1)损失函数的设计
2)正则化的设计
3)整个损失函数包含了上面两个部分。
在实际工作过程中,一般采用L2或者L1,对比下;
对于L1的正则化,更容易得到稀疏的解,因为w向量一直朝最低点前进,会跑到多面体的顶点中。但是不是每个点都可以微分的。
对于L2的正则化而言,可能每个权重都有解,拿去做预测就要耗费更多的计算能力。
再来看噪音和
可以看到,当噪音越大,需要的
那么如何来调节这个系数呢?
欲知后事如何,且听下回分解。
欢迎转载,可以关注博客:http://blog.****.net/cqy_chen