机器学习算法总结之支持向量机(二)

有时候不能线性可分的原因是线性数据集里面多了少量的异常点,由于这些异常点导致了数据集不能线性可分,本篇就对线性支持向量机如何处理这些异常点的原理方法做一个总结。

1.线性分SVM面临的问题

有时候本来数据的确是可分的,也就是说可以用 线性分类SVM的学习方法来求解,但是却因为混入了异常点,导致不能线性可分,比如下图,本来数据是可以按下面的实线来做超平面分离的,可以由于一个橙色和一个蓝色的异常点导致我们没法按照上一篇线性支持向量机中的方法来分类。

机器学习算法总结之支持向量机(二)

另外一种情况没有这么糟糕到不可分,但是会严重影响我们模型的泛化预测效果,比如下图,本来如果我们不考虑异常点,SVM的超平面应该是下图中的红色线所示,但是由于有一个蓝色的异常点,导致我们学习到的超平面是下图中的粗虚线所示,这样会严重影响我们的分类模型预测效果。

机器学习算法总结之支持向量机(二)

如何解决这些问题呢?SVM引入了软间隔最大化的方法来解决。

2. 线性分类SVM的软间隔最大化

所谓的软间隔,是相对于硬间隔说的,我们可以认为上一篇线性分类SVM的学习方法属于硬间隔最大化。

回顾下硬间隔最大化的条件:

机器学习算法总结之支持向量机(二)

接着我们再看如何可以软间隔最大化呢?

SVM对训练集里面的每个样本(xi,yi)引入了一个松弛变量ξi≥0,使函数间隔加上松弛变量大于等于1,也就是说:

机器学习算法总结之支持向量机(二)

对比硬间隔最大化,可以看到我们对样本到超平面的函数距离的要求放松了,之前是一定要大于等于1,现在只需要加上一个大于等于0的松弛变量能大于等于1就可以了。当然,松弛变量不能白加,这是有成本的,每一个松弛变量ξi, 对应了一个代价ξi,这个就得到了我们的软间隔最大化的SVM学习条件如下:

机器学习算法总结之支持向量机(二)

这里,C>0为惩罚参数,可以理解为我们一般回归和分类问题正则化时候的参数。C越大,对误分类的惩罚越大,C越小,对误分类的惩罚越小。

也就是说,我们希望12||w||22尽量小,误分类的点尽可能的少。C是协调两者关系的正则化惩罚系数。在实际应用中,需要调参来选择。

这个目标函数的优化和上一篇的线性可分SVM的优化方式类似,我们下面就来看看怎么对线性分类SVM的软间隔最大化来进行学习优化。

3. 线性分类SVM的软间隔最大化目标函数的优化

和线性可分SVM的优化方式类似,我们首先将软间隔最大化的约束问题用拉格朗日函数转化为无约束问题如下:

机器学习算法总结之支持向量机(二)

其中 μi≥0,αi≥0,均为拉格朗日系数。

也就是说,我们现在要优化的目标函数是:

机器学习算法总结之支持向量机(二)

这个优化目标也满足KKT条件,也就是说,我们可以通过拉格朗日对偶将我们的优化问题转化为等价的对偶问题来求解如下:

机器学习算法总结之支持向量机(二)

我们可以先求优化函数对于w,b,ξ的极小值, 接着再求拉格朗日乘子α和 μ的极大值。

首先我们来求优化函数对于w,b,ξ的极小值,这个可以通过求偏导数求得:

机器学习算法总结之支持向量机(二)

好了,我们可以利用上面的三个式子去消除w和b了。

机器学习算法总结之支持向量机(二)

仔细观察可以发现,这个式子和我们上一篇线性可分SVM的一样。唯一不一样的是约束条件。现在我们看看我们的优化目标的数学形式:

机器学习算法总结之支持向量机(二)

对于C−αi−μi=0,αi≥0,μi≥0这3个式子,我们可以消去μi,只留下αi,也就是说0≤αi≤C。 同时将优化目标函数变号,求极小值,如下:

机器学习算法总结之支持向量机(二)

这就是软间隔最大化时的线性可分SVM的优化目标形式,和上一篇的硬间隔最大化的线性可分SVM相比,我们仅仅是多了一个约束条件0≤αi≤C。我们依然可以通过SMO算法来求上式极小化时对应的α向量就可以求出w和b了

4. 软间隔最大化时的支持向量

在硬间隔最大化时,支持向量比较简单,就是满足yi(wTxi+b)−1=0就可以了。根据KKT条件中的对偶互补条件α∗i(yi(wTxi+b)−1)=0,如果α∗i>0则有yi(wTxi+b)=1 即点在支持向量上,否则如果α∗i=0则有yi(wTxi+b)≥1,即样本在支持向量上或者已经被正确分类。

在软间隔最大化时,则稍微复杂一些,因为我们对每个样本(xi,yi)引入了松弛变量ξi。我们从下图来研究软间隔最大化时支持向量的情况,第i个点到对应类别支持向量的距离为ξi||w||2。根据软间隔最大化时KKT条件中的对偶互补条件α∗i(yi(wTxi+b)−1+ξ∗i)=0我们有:

a) 如果α=0,那么yi(wTxi+b)−1≥0,即样本在支持向量上或者已经被正确分类。如图中所有远离支持向量的点

b) 如果0<α<C,那么ξi=0,yi(wTxi+b)−1=0,即点在支持向量上。如图中在虚线支持向量上的点。

c) 如果α=C,说明这是一个可能比较异常的点,需要检查此时ξi

  i)如果0≤ξi≤1,那么点被正确分类,但是却在超平面和自己类别的支持向量之间。如图中的样本2和4.
       ii)如果ξi=1,那么点在分离超平面上,无法被正确分类。
       iii)如果ξi>1,那么点在超平面的另一侧,也就是说,这个点不能被正常分类。如图中的样本1和3.

机器学习算法总结之支持向量机(二)

5.软间隔最大化的线性可分SVM算法流程

这里我们对软间隔最大化时的线性可分SVM的算法过程做一个总结。

输入是线性可分的m个样本(x1,y1),(x2,y2),...,(xm,ym),,其中x为n维特征向量。y为二元输出,值为1,或者-1.

输出是分离超平面的参数w∗和b∗和分类决策函数。

算法过程如下:

机器学习算法总结之支持向量机(二)

6.合页损失函数

线性支持向量机还有另外一种解释如下:

机器学习算法总结之支持向量机(二)


几种常见损失函数:

机器学习算法总结之支持向量机(二)


线性可分SVM通过软间隔最大化,可以解决线性数据集带有异常点时的分类处理,但是现实生活中的确有很多数据不是线性可分的,这些线性不可分的数据也不是去掉异常点就能处理这么简单。那么SVM怎么能处理中这样的情况呢?我们在下一篇就来讨论线性不可分SVM和核函数的原理。


支持原创:支持向量机原理(二) 线性支持向量机的软间隔最大化模型