支持向量机（Support Vector Machine，SVM）详解

主要内容
- 支持向量机简介
- 数据线性可分的情况
  - 间隔与支持向量
  - 对偶问题
  - SMO算法
- 数据非线性可分的情况

1、支持向量机简介
支持向量机(support vector machine)是一种二分类模型，其基本模型定义是特征空间上的间隔最大的线性分类器（当采用线性核时），即支持向量机的学习策略是间隔最大化，最终可转化为一个凸二次规划问题的求解。
支持向量机于1995年正式发表，由于在文本分类任务中显示出卓越性能，很快成为机器学习的主流技术，并直接掀起了“统计学习”在2000年前后的高潮。但实际上，支持向量的概念早在二十世纪六十年代就已出现，统计学习理论在七十年代就已成型。对核函数的研究更早，Mercer定理可追溯到1909年，RKHS则在四十年代就已被研究，但在统计学习兴起之后，核技巧才真正成为机器学习的通用基本技术。
支持向量机的求解通常是借助于凸优化技术。如何提高效率，使SVM能适用于大规模数据一直是研究重点。对线性核SVM已有很多成果，例如基于割平面法的SVM具有线性复杂度，基于随机梯度下降的Pegasos速度甚至更快，而坐标下降法则在稀疏数据上有很高的效率。非线性核SVM的时间复杂度在理论上不可能低于 $O (m^{2})$ ，因此研究重点是设计快速近似算法，如基于采样的CVM、基于低秩逼近的Nyström方法、基于随机傅里叶特征的方法等。最近有研究显示，当核矩阵特征值有很大差别时，Nyström方法往往优于随机傅里叶特征方法。
支持向量机是针对二分类任务设计的，对多分类任务要进行专门的推广，对带结构输出的任务也已有相应的算法。
核函数直接决定了支持向量机与核方法的最终性能，但遗憾的是，核函数的选择是一个未决问题。多核学习使用多个核函数并通过学习获得其最优凸组合作为最终的核函数，这实际上是在借助集成学习机制。
SVM已有很多软件包，比较著名的有LIBSVM [Chang and Lin,2011]和LIBLINEAR [Fan et al.,2008]等。

2、数据线性可分的情况
2.1 间隔与支持向量
给定训练样本集 $D = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{m}, y_{m})}$ ， $y_{i} \in {- 1, + 1}$ ，分类学习最基本的想法就是基于训练集 $D$ 在样本空间中找到一个划分超平面，将不同类别的样本分开。但能将训练样本分开的划分超平面可能有很多，如图1所示，那么应该选取哪一个呢？

图 1
直观上看，应该寻找位于两类训练样本“正中间”的划分超平面，即图1中红色的那个，因为该划分超平面对训练样本局部扰动的“容忍”性最好。例如，由于训练集的局限性或噪声的因素，训练集外的样本可能比图1中的训练样本更接近两个类的分隔界，这将使许多划分超平面出现错误，而红色的超平面受影响最小。换言之，这个划分超平面所产生的分类结果是最鲁棒的，对未见示例的泛化能力最强。
在样本空间中，划分超平面可通过如下线性方程来描述：

\begin{matrix} (3286) & w^{T} x + b = 0 (1) \end{matrix}

其中，

w = (w_{1}; w_{2}; . . .; w_{d})

为法向量，决定了超平面的方向，

d

为样本属性个数；

b

为位移项，决定了超平面与原点之间的距离。显然，划分超平面可被法向量

w

和位移

b

确定，我们将其记为

(w, b)

。样本空间中任意点

x

到超平面

(w, b)

的距离可写为：

\begin{matrix} (3287) & r = \frac{| w^{T} x + b |}{| | w | |} (2) \end{matrix}

其中，

| | w | |

为欧几里得泛数，

| | w | | = \sqrt{w * w} = \sqrt{w_{1}^{2} + w_{2}^{2} + . . . + w_{d}^{2}}

。
假设超平面

(w, b)

能将训练样本正确分类，即对于

(x_{i}, y_{i}) \in D

，若

y_{i} = + 1

，则有

w^{T} x + b > 0

；若

y_{i} = - 1

，则有

w^{T} x + b < 0

。令

{\begin{matrix} w^{T} x_{i} + b \geq + 1, & y_{i} = + 1 \\ w^{T} x_{i} + b \leq - 1, & y_{i} = - 1 \end{matrix} (3)

如图2所示，距离超平面最近的这几个训练样本点使式(3)的等号成立，它们被称为“支持向量”（support vector），两个异类支持向量到超平面的距离之和为：

\begin{matrix} (3288) & γ = \frac{2}{| | w | |} (4) \end{matrix}

它被称为“间隔”（margin）。
支持向量机（Support Vector Machine，SVM）详解

图 2
欲找到具有“最大间隔”（maximum margin）的划分超平面，也就是要找到能够满足式(3)中约束的参数

w

和

b

，使得

γ

最大，即

\begin{matrix} (3289) & \underset{w, b}{m a x} \frac{2}{| | w | |} (5) s . t . y_{i} (w^{T} x_{i} + b) \geq 1, i = 1, 2, . . ., m \end{matrix}

显然，为了最大化间隔，仅需最大化

| | w | |^{- 1}

，这等价于最小化

| | w | |^{2}

。于是，式(5)可重写为：

\begin{matrix} (3290) & \underset{w, b}{m i n} \frac{1}{2} | | w | |^{2} (6) s . t . y_{i} (w^{T} x_{i} + b) \geq 1, i = 1, 2, . . ., m \end{matrix}

这就是支持向量机（support vector machine，SVM）基本模型。

2.2 对偶问题
我们希望求解式(6)来得到最大间隔划分超平面所对应的模型：

\begin{matrix} (3291) & f (x) = w^{T} x + b (7) \end{matrix}

其中，

w

和

b

是模型参数。注意到式(6)本身是一个凸二次规划（convex quadratic programming）问题，能直接用现成的优化计划包求解，但我们可以有更高效的方法。
对式(6)使用拉格朗日乘子法可得到其“对偶问题”（dual problem）。具体来说，对式(6)的每条约束添加拉格朗日乘子

α_{i} \geq 0

，则该问题的拉格朗日函数可写为：

\begin{matrix} (3292) & L (w, b, α) = \frac{1}{2} | | w | |^{2} + \sum_{i = 1}^{m} α_{i} (1 - y_{i} (w^{T} x_{i} + b)) (8) \end{matrix}

其中，

α = (α_{1}; α_{2}; . . .; α_{m})

。令

L (w, b, α)

对

w

和

b

的偏导为零，可得：

\begin{matrix} (3293) & w = \sum_{i = 1}^{m} α_{i} y_{i} x_{i} (9) 0 = \sum_{i = 1}^{m} α_{i} y_{i} (10) \end{matrix}

将式(9)代入(8)，即可将

L (w, b, α)

中的

w

和

b

消去，再考虑式(10)的约束，就得到式(6)的对偶问题：

\begin{matrix} (3294) & \underset{α}{m a x} \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} (11) s . t . \sum_{i = 1}^{m} α_{i} y_{i} = 0, α_{i} \geq 0, i = 1, 2, . . ., m \end{matrix}

解出

α

后，求出

w

与

b

即可得到模型：

\begin{matrix} (3295) & f (x) = w^{T} x + b = \sum_{i = 1}^{m} α_{i} y_{i} x_{i}^{T} x + b (12) \end{matrix}

从对偶问题(11)解出的

α_{i}

是式(8)中的拉格朗日乘子，它恰对应着训练样本

(x_{i}, y_{i})

。注意到式(6)中有不等式约束，因此上述过程需满足KKT（Karush-Kuhn-Tucker）条件，即要求

{\begin{matrix} α_{i} \geq 0 \\ y_{i} f (x_{i}) - 1 \geq 0 \\ α_{i} (y_{i} f (x_{i}) - 1) = 0 \end{matrix} (13)

于是，对任意训练样本

(x_{i}, y_{i})

，总有

α_{i} = 0

或

y_{i} f (x_{i}) = 1

。若

α_{i} = 0

，则该样本将不会在式(12)的求和中出现，也就不会对

f (x)

有任何影响；若

α_{i} > 0

，则必有

y_{i} f (x_{i}) = 1

，所对应的样本点位于最大间隔边界上，是一个支持向量。这显示出支持向量机的一个重要性质：训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量有关。

2.3 SMO算法
那么，如何求解式(11)呢？不难发现，这是一个二次规划问题，可使用通用的二次规划算法来求解；然而，该问题的规模正比于训练样本数，这会在实际任务中造成很大的开销。为了避免这个障碍，人们通过利用问题本身的特性，提出了很多高效算法，SMO（Sequential Minimal Optimization）是其中一个著名的代表 [Platt, 1998]。
SMO的基本思路是先固定 $α_{i}$ 之外的所有参数，然后求 $α_{i}$ 上的极值。由于存在约束 $\sum_{i = 1}^{m} α_{i} y_{i} = 0$ ，若固定 $α_{i}$ 之外的其他变量，则 $α_{i}$ 可由其他变量导出。于是，SMO每次选择两个变量 $α_{i}$ 和 $α_{j}$ ，并固定其他参数。这样，在参数初始化后，SMO不断执行如下两个步骤直至收敛：

选取一对需更新的变量 $α_{i}$ 和 $α_{j}$ ；
固定 $α_{i}$ 和 $α_{j}$ 以外的参数，求解式(11)获得更新后的 $α_{i}$ 和 $α_{j}$ 。

注意到只需选取的 $α_{i}$ 和 $α_{j}$ 中有一个不满足KKT条件(13)，目标函数就会在迭代后增大 [Osuna et al., 1997]。直观来看，KKT条件违背的程度越大，则变量更新后可能导致的目标函数值增幅越大。于是，SMO先选取违背KKT条件程度最大的变量。第二个变量应选择一个使目标函数值增长最快的变量，但由于比较各变量所对应的目标函数值增幅的复杂度过高，因此SMO采用了一个启发式：使选取的两变量所对应样本之间的间隔最大。一种直观的解释是，这样的两个变量有很大的差别，与对两个相似的变量进行更新相比，对他们进行更新会带给目标函数值更大的变化。
SMO算法之所以高效，恰由于在固定其他参数后，仅优化两个参数的过程能做到非常高效。具体来说，仅考虑 $α_{i}$ 和 $α_{j}$ 时，式(11)中的约束可重写为：

\begin{matrix} (3296) & α_{i} y_{i} + α_{j} y_{j} = c, α_{i} \geq 0, α_{j} \geq 0 (14) \end{matrix}

其中

\begin{matrix} (3297) & c = - \sum_{k \neq i, j} α_{k} y_{k} (15) \end{matrix}

是使

\sum_{i = 1}^{m} α_{i} y_{i} = 0

成立的常数。用

\begin{matrix} (3298) & α_{i} y_{i} + α_{j} y_{j} = c (16) \end{matrix}

消去式(11)中的变量

α_{j}

，则得到一个关于

α_{i}

的单变量二次规划问题，仅有的约束是

α_{i} \geq 0

。不难发现，这样的二次规划问题具有闭式解，于是不必调用数值优化算法即可高效地计算出更新后的

α_{i}

和

α_{j}

。
如何确定偏移项

b

呢？注意到对任意支持向量

(x_{s}, y_{s})

都有

y_{s} f (x_{s}) = 1

，即

\begin{matrix} (3299) & y_{s} (\sum_{i \in S} α_{i} y_{i} x_{i}^{T} x_{s} + b) = 1 (17) \end{matrix}

其中，

S = {i | α_{i} > 0, i = 1, 2..., m}

为所有支持向量的下标集。理论上，可选取任意支持向量并通过求解式(17)获得

b

，但现实任务中常采用一种更为鲁棒的做法：使用所有支持向量求解的均值：

\begin{matrix} (3300) & b = \frac{1}{| S |} \sum_{s \in S} (y_{s} - \sum_{i \in S} α_{i} y_{i} x_{i}^{T} x_{s}) (18) \end{matrix}

3、数据非线性可分的情况
当数据线性不可分时，主要思路：通过恰当的核函数，将原始样本空间映射至一个更高维的特征空间，使得样本在这个更高维的特征空间线性可分。
SVM常用的核函数有以下几种：

公式(11)中

x_{i}^{T} x_{j}

被称为线性核函数，能够有效处理线性可分的情况。当数据线性不可分时，可以通过上表中其他核函数代替公式(11)中的线性核函数，从而将原始样本空间映射至一个更高维的特征空间，使得样本在这个更高维的特征空间线性可分。
当通过训练样本训练SVM时，该如何选取核函数呢？一是利用专家的先验知识预先选定核函数；二是采用交叉验证方法，即在进行核函数选取时，分别试用不同的核函数，归纳误差最小的核函数就是最优的核函数。就分类效果来说，非线性核比线性核好一些，当然也需要更多的计算开销；对于线性核函数，没有专门需要设置的参数。
情况1：当训练集不大，而属性特征比较多的时候，可以采用线性核，因为较多的属性特征就已经可以给线性核提供不错的variance去fit训练集。
情况2：当训练集相对可观，而属性特征比较少的时候，可以采用非线性核，因为需要算法提供更多的variance去fit训练集。
情况3：当属性特征比较少，而训练集非常庞大的时候，可以采用线性核，因为非线性核需要的计算量太大了，而庞大的训练集，本身就可以给非线性核提供很好的分类效果。
注：如果很难确定合适的核函数使训练集在特征空间有效分开，可以通过软间隔，即通过损失函数去解决（加入损失函数的约束），当然损失函数中可以加入正则解决过拟合问题。

支持向量机（Support Vector Machine，SVM）详解

支持向量机（Support Vector Machine，SVM）详解

相关推荐