欢迎转载，可以关注博客：http://blog.****.net/cqy_chen

概要

上节课讲到了机器学习中发生了过拟合现象，当资料量不多和模型过于复杂，有噪音就容易发生过拟合，本节主要讲解如何应对过拟合现象。

正则化假设空间

首先看过拟合现象：
林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）
能不能从高次的多项式退回到低次的多项式呢？
假设空间从高次回到低次，那么假设空间的集合就小了，那么就不容易发生过拟合了。
这就是正则化要做的事情，那么如何从10次多项式退回到2次多项式呢？
在10次多项式中,x表示原始的空间向量。

g (x) = w 0 + w 1 x + w 2 x 2 + w 3 x 3 + . . . . . . w 10 x 1 0

而在二次式中：

g (x) = w 0 + w 1 x + w 2 x 2

所以要从10次的多项式回退到2次的多项式，就是相当于令

w 3 = 0, w 4 = 0....... w 10 = 0

所以如果在10次空间中，如果不要过拟合，继续采用2次式的假设空间，我们可以限定权重条件：
林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）

那么这里我们稍微放松一下条件，假设主要限定任意的8个权重为0就好了，而不是最高次的8个为0。就是现在的假设空间也是在10次空间中，但是限定只有3个是有值的（加上常数项）。
林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）

我们可以看到新的假设空间是处于2次式和10次式之间。这样我们通过条件的限制将10次的空间进行了回退

但是我们的条件是一个NP难的问题，所以还需要进一个优化。我们如果将这些权重的大小限定在一个范围内呢？
林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）
其实我们可以看到在限定了所有权重在一个范围内，和上面的限定部分参数为0是有重叠的。
当我们的这个常量C不断的变换，这个假设空间就不断的变换。

林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）

这个假设空间就被称为正则化的假设空间。

权重递减正则化

那么通过规则化，如何求解呢？
这里以回归为例：
目标函数：

min w \in R q + 1 E i n (w) = 1 N \sum n = 1 N (w T z n - y n) 2 添 加 限 定 项 ： \sum n = 1 N w 2 q \leq C

那么要求解这个目标方程。可以先看直观化的解释：
林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）

这里相当于在高维空间中，权重被限定在了一个球体内，在采用梯度下降求解的过程中，如果最佳的点不在球体内，权重就沿着这个球的表面滚动，直到梯度和球的法向量平行才停止。
所以我们得到：

\nabla E i n (w R E G) + 2 λ N w R E G = 0

这里添加系数主要是为了推导方便，其实就是对应拉格朗日系数。
这里固定λ，可以得到w是：

w R E G = (Z T Z + λ) - 1 Z T y

这个在正则化中称为ridge，还有lasso。
可以参考：
http://blog.****.net/xbinworld/article/details/44276389

上面的解法其实推回到拉格朗日式子是：

min w \in R q + 1 1 N \sum n = 1 N (w T z n - y n) 2 + λ N w T w

这里将wTw称为正则化项，下面是不同的λ的情况。
林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）

当我们采用普通的多项式转换，可能导致一些问题，比如映射到高维的时候，X很小，经过高次运算就更小了。需要使用Legendre polynomials。如下图：
林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）

关于Legendre polynomials请参考：
https://en.wikipedia.org/wiki/Legendre_polynomials

正则化和VC理论

上面讲到了正则化，那么正则化和VC理论有什么关系呢？
其实我们知道，添加正则化导致假设空间限定在一个范围内，就是复杂度降低了。等同于VC维降低。
林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）

一般的正则化

如何来添加正则化项呢？如果我们知道：
1）目标函数的样子，当然可以喽
2）知道了噪音的分布，那就可以提取那些更加平滑的点来进行训练。
3）或者算法更容易进行优化。
这是在机器学习涉及到的三个问题：
1）损失函数的设计
2）正则化的设计
3）整个损失函数包含了上面两个部分。
林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）
在实际工作过程中，一般采用L2或者L1，对比下；

对于L1的正则化，更容易得到稀疏的解，因为w向量一直朝最低点前进，会跑到多面体的顶点中。但是不是每个点都可以微分的。

对于L2的正则化而言，可能每个权重都有解，拿去做预测就要耗费更多的计算能力。
再来看噪音和λ的关系：
林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）
可以看到，当噪音越大，需要的λ就越大。
那么如何来调节这个系数呢？

欲知后事如何，且听下回分解。