【机器学习】支持向量机（2）——线性可分支持向量机（硬间隔最大化法，对偶算法）

前言

此文中我们介绍了支持向量机用到的一些概念以及求解方法，接下来我们将分别介绍线性可分支持向量机、线性支持向量机以及非线性支持向量机。

首先，我们考虑一个二类分类问题，假设输入空间与特征空间为两个不同的空间。输入空间为欧氏空间或离散集合，特征空间为欧氏空间或希尔伯特空间。线性可分支持向量机、线性支持向量机假设这两个空间的元素一一对应，并将输入空间中的输入映射为特征空间中的特征向量。非线性支持向量机利用一个从输入空间到特征空间的非线性映射将输入映射为特征向量。所以，输入都由输入空间转换到特征空间，支持向量机的学习是在特征空间进行的。

线性可分支持向量机

我们知道，支持向量机的学习目标是在特征空间找到一个分离超平面，能将实例分到不同的类。

当训练数据集线性可分时（线性可分数据集这里有提到），存在无穷个分离超平面（这在感知机中我们介绍过）将两类数据正确分开。感知机利用误分类最小化的撤率，求得分离超平面，不过这时的解有无穷多个。线性可分支持向量机利用间隔最大化求最优分离超平面，并且解是唯一的。

那么我们如何使得间隔最大化并求得分离超平面呢？

间隔最大化（硬间隔）

间隔最大化的直观解释是：对训练数据集找到几何间隔（此文有介绍）最大的超平面意味着以充分大的确信度对训练数据进行分类。也就是说，不仅将正负实例点分开，而求对最难分的实例点（离超平面最近的点）也有足够大的确信度将它们分开，这样的超平面对于未知的新实例有很好的分类预测能力。

下面我们考虑如何求得一个几何间隔最大的分离超平面，即最大间隔分离超平面。我们可以将这个问题表示为下面的约束最优化问题：

max_{w, b} γ s . t . y_{i} (\frac{w}{| | w | |} \cdot x_{i} + \frac{b}{| | w | |}) ⩾ γ, i = 1, 2, . . ., N

即我们希望最大化超平面 $(w, b)$ 关于训练数据集的几何间隔 $γ$ ；
约束条件表示：超平面关于每个样本点的几何间隔至少是 $γ$

进一步地，我们考虑几何间隔和函数间隔的关系。

γ = \frac{δ}{| | w | |}

此处：

δ

为函数间隔

y_{i} (w \cdot x_{i} + b)

这是可将上面的约束问题改为：

max_{w, b} \frac{δ}{| | w | |} s . t . y_{i} (w \cdot x_{i} + b) ⩾ δ, i = 1, 2, . . ., N

这是我们需要注意到，函数间隔 $δ$ 的取值并不影响最优化问题的解。

这里，假设我们将 $w, b$ 按比例改为 $λ w ， λ b$ ，这是函数间隔变为 $y_{i} (λ w \cdot x_{i} + λ b) = λ δ$ ；
此时，函数间隔的改变并没有改变上面的约束，对目标函数的优化也没用影响，也就是说，它产生一个等价的最优化问题；
这样，我们就可以把函数间隔 $δ$ 特殊化，取 $δ = 1$
将上面 $δ = 1$ ，带入原来最优化问题中，注意到最大化 $\frac{1}{| | w | |}$ 和最小化 $\frac{1}{2} | | w | |^{2}$ 是等价的。

我们将得到线性支持向量机学习的最优化问题：

max_{w, b} \frac{1}{2} | | w | |^{2} s . t . y_{i} (w \cdot x_{i} + b) - 1 ⩾ 0, i = 1, 2, . . ., N

上面这个约束最优化问题是一个凸二次规划的问题。

如果求出了约束最优化问题的解 $(w^{*}, b^{*})$ ，那么就可以得到最大间隔分离超平面 $w^{*} \cdot x + b^{*} = 0$ 及分类决策函数 $f (x) = s i g n (w^{*} \cdot x + b^{*})$ ，即线性可分支持向量机。

线性可分支持向量机学习算法——最大间隔法如下：

输入：线性可分训练数据集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}$ ，其中， $x_{i} \in X = R^{n} ， y_{i} \in Y = {- 1, + 1} ， i = 1, 2, . . ., N$ ；
输出：最大间隔分离超平面和分类决策函数。
（1）构造并求解约束最优化问题：

max_{w, b} \frac{1}{2} | | w | |^{2} s . t . y_{i} (w \cdot x_{i} + b) - 1 ⩾ 0, i = 1, 2, . . ., N

求得最优解

w^{*}, b^{*}

；
（2）由此得到分离超平面：

w^{*} \cdot x + b^{*} = 0

分类决策函数：

f (x) = s i g n (w^{*} \cdot x + b^{*})

若训练数据集线性可分，则可将训练数据集中的样本点完全正确分开的最大间隔分离超平面存在且唯一。证明过程可参考《统计学习方法》李航

在之前博客中，我们介绍过，支持向量就是距离分离超平面最近的实例点。注意到上面约束问题，支持向量便是使约束条件等号成立的点，即：

y_{i} (w \cdot x + b) - 1 = 0

在决定分离超平面时只有支持向量起作用，而其他实例点并不起作用，如果移动支持向量将改变所求的解；但是如果在间隔边界以外移动其他实例点，甚至去掉这些点，则解是不会改变的。

对偶算法

为了求解线性可分支持向量机的最优化问题，将原来的约束最优化问题作为原始问题，应用拉格朗日对偶性（此文有介绍），通过求解对偶问题得到原始问题的最优解。

这样做的有点：
对偶问题往往更容易求解
自然引入核函数，进而推广到非线性分类问题（这在后面会介绍）

现在我们就开始构建原始问题的对偶问题：

（1）首先构建拉格朗日函数

L (w, b, α) = \frac{1}{2} | | w | |^{2} - \sum_{i = 1}^{N} α_{i} [y_{i} (w \cdot x + b) - 1]

其中，

α_{i} ⩾ 0 ， α = (α_{1}, α_{2}, . . ., α_{N})^{T}

为拉格朗日乘子向量。

根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题。

max_{α} min_{w, b} L (w, b, α)

即，需要先求 $L (w, b, α)$ 对 $w, b$ 的极小，再求对 $α$ 的极大。

（2）求 $min_{w, b} L (w, b, α)$

将拉格朗日函数 $L (w, b, α)$ 分别对 $w, b$ 求偏导并令其等于0

\nabla_{w} L (w, b, α) = w - \sum_{i = 1}^{N} α_{i} y_{i} x_{i} = 0 \nabla_{b} L (w, b, α) = 0

得：

w = \sum_{i = 1}^{N} α_{i} y_{i} x_{i} \sum_{i = 1}^{N} α_{i} y_{i} = 0

代入拉格朗日函数中，即得：

L (w, b, α) = \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} y_{i} ((\sum_{j = 1}^{N} α_{j} y_{j} x_{j}) \cdot x_{i} + b) + \sum_{i = 1}^{N} α_{i} = - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}

即：

min_{w, b} L (w, b, α) = - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}

（3）求

min_{w, b} L (w, b, α)

对

α

的极大，即是对偶问题：

max_{α} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i} s . t . \sum_{i = 1}^{N} α_{i} y_{i} = 0 α_{i} ⩾ 0, i = 1, 2, . . ., N

将上式的目标函数由求极大转换为求极小，得到等价的对偶最优化问题：

min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} s . t . \sum_{i = 1}^{N} α_{i} y_{i} = 0 α_{i} ⩾ 0, i = 1, 2, . . ., N

对于线性可分训练数据集，假设对偶最优化问题对 $α$ 的解为 $α^{*} = (α_{1}^{*}, α_{2}^{*}, . . ., α_{N}^{*})^{T}$ ，可以由 $α^{*}$ 求得原始最优化问题对 $(w, b)$ 的解 $w^{*}, b^{*}$

存在一下定理：

假设 $α^{*} = (α_{1}^{*}, α_{2}^{*}, . . ., α_{N}^{*})^{T}$ 是对偶最优化问题的解，则存在下标 $j$ ，使得 $α_{j}^{*} > 0$ ，并可求得原始最优化问题的解 $w^{*}, b^{*}$ ：

w^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i} b^{*} = y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i} \cdot x_{j})

至此，分离超平面可以写成：

\sum_{i = 1}^{N} α_{i}^{*} y_{i} (x \cdot x_{i}) + b^{*} = 0

分类决策函数可以写为：

f (x) = s i g n (\sum_{i = 1}^{N} α_{i}^{*} y_{i} (x \cdot x_{i}) + b^{*})

这就是说，分类决策函数只依赖于输入 $x$ 和训练数据集样本输入的内积。

线性可分支持向量机学习算法——对偶算法：

min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} s . t . \sum_{i = 1}^{N} α_{i} y_{i} = 0 α_{i} ⩾ 0, i = 1, 2, . . ., N

求得最优解

α^{*} = (α_{1}^{*}, α_{2}^{*}, . . ., α_{N}^{*})^{T}

；
（2）计算：

w^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i}

并选择

α^{*}

的一个正分量

α_{j}^{*} > 0

，计算：

b^{*} = y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i} \cdot x_{j})

（3）求得分离超平面：

\sum_{i = 1}^{N} α_{i}^{*} y_{i} (x \cdot x_{i}) + b^{*} = 0

分类决策函数：

f (x) = s i g n (\sum_{i = 1}^{N} α_{i}^{*} y_{i} (x \cdot x_{i}) + b^{*})

下面通过具体的数据，比较两个算法的计算：

数据如下图：正例点是 $x_{1} = (3, 3)^{T}, x_{2} = (4, 3)^{T} ，负例点是 x_{3} = (1, 1)^{T}$

问题：试求最大间隔分离超平面?

1.最大间隔法求解：

解：按照最大间隔法，根据训练数据集构造约束最优化问题：

min_{w, b} \frac{1}{2} (w_{1}^{2} + w_{2}^{2}) s . t . 3 w_{1} + 3 w_{2} + b ⩾ 0 4 w_{1} + 3 w_{2} + b ⩾ 0 - 1 w_{1} - 1 w_{2} - b ⩾ 0

求得此最优化问题的解为：

w_{1} = w_{2} = \frac{1}{2}, b = - 2

。于是最大间隔分离超平面为：

\frac{1}{2} x^{(1)} + \frac{1}{2} x^{(2)} - 2 = 0

其中，

x_{1} = (3, 3)^{T} 与 x_{3} = (1, 1)^{T}

是支持向量。

2.对偶算法求解：

解：根据所给数据，对偶问题是：

min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} = \frac{1}{2} (18 α_{1}^{2} + 25 α_{2}^{2} + 2 α_{3}^{2} + 42 α_{1} α_{2} - 12 α_{1} α_{3} - 14 α_{2} α_{3}) - α_{1} - α_{2} - α_{3} s . t . α_{1} + α_{2} - α_{3} = 0 α_{i} ⩾ 0, i = 1, 2, 3

解这一最优化问题，将

α_{3} = α_{1} + α_{2}

代入目标函数并记为：

s (α_{1}, α_{2}) = 4 α_{1}^{2} + \frac{13}{2} α_{2}^{2} + 10 α_{1} α_{2} - 2 α_{1} - 2 α_{2}

对

α_{1}, α_{2}

求偏导数并令其为0，易知

s (α_{1}, α_{2})

在点

(\frac{3}{2}, - 1)^{T}

取极值，但该点不满足约束条件

α_{2} ⩾ 0

，所以极小值应在边界上达到。

当 $α_{1} = 0$ 时，最小值 $s (0, \frac{2}{13}) = - \frac{2}{13}$ ；当 $α_{2} = 0$ 时，最小值 $s (\frac{1}{4} ， 0) = - \frac{1}{4}$ 。于是， $s (α_{1}, α_{2})$ 在 $α_{1} = \frac{1}{4}, α_{2} = 0$ 达到最小，此时 $α_{3} = α_{1} + α_{2} = \frac{1}{4}$

这样， $α_{1}^{*} = α_{3}^{*} = \frac{1}{4}$ 对应的实例点 $x_{1}, x_{3}$ 是支持向量，根据：

w^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i}

b^{*} = y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i} \cdot x_{j})

计算得：

w^{*} = \frac{1}{4} (1) (3, 3) + \frac{1}{4} (- 1) (1, 1) = (\frac{1}{2}, \frac{1}{2}) w_{1}^{*} = w_{2}^{*} = \frac{1}{2}

取点

x_{1} = (3, 3)^{T} 求 b^{*} ， 此 时 j = 1, y_{j} = 1

b^{*} = 1 - [\frac{1}{4} (1) (x_{1} \cdot x_{1}) + \frac{1}{4} (- 1) (x_{3} \cdot x_{1})] = 1 - (\frac{1}{4} * 18 - \frac{1}{4} * 6) = - 2

于是分离超平面为：

\frac{1}{2} x^{(1)} + \frac{1}{2} x^{(2)} - 2 = 0

分类决策函数为：

f (x) = s i g n (\frac{1}{2} x^{(1)} + \frac{1}{2} x^{(2)} - 2)

至此，我们已经介绍了线性可分支持向量机的间隔最大化和对偶算法，要想真的理解这些，真的需要较好的数学基础，尤其是凸优化
参考书籍
《机器学习》西瓜书
《统计学习方法》李航

【机器学习】支持向量机（2）——线性可分支持向量机（硬间隔最大化法，对偶算法）

前言

线性可分支持向量机

对偶算法

下面通过具体的数据，比较两个算法的计算：

相关推荐