支持向量机（SVM）和python实现（一）

1. 问题的提出

若存在一个样本集，其中有两类数据，我们希望将他们分类

像上图(a)那样的样本集，SVM的目的就是企图获得一个超平面（在这个例子中超平面是一个直线），这个超平面可以完美的分割不同的数据集，我们用下面的线性方程来表示这个超平面：

ω^{T} x + b = 0

对于二维空间的超平面，实际上就是：

[\begin{matrix} w 1 & w 2 \end{matrix}] [\begin{matrix} x \\ y \end{matrix}] + b = 0

我们再观察图(b)和(c)的两个直线，很明显b中的直线对样本集的划分更好一些，因为，在直线边缘的样本点离直线更远一些，这样就提高了样本划分的鲁棒性，所以我们就有了一个寻找超平面的最开始的理念：找到的这个超平面要离2组样本集尽量的远，即点到超平面的距离尽量大。
这里直接给出点到超平面的距离：

d = \frac{| ω^{T} x + b |}{‖ ω ‖}

我们现在再给出样本的类别标签，红色点为-1，蓝色点为1，则有：

{\begin{matrix} ω^{T} x_{i} + b > 0 & y_{i} = 1 \\ ω^{T} x_{i} + b < 0 & y_{i} = - 1 \end{matrix}

如果我们要求再高一些，我们希望这些点到超平面的距离都要大于d，则有：

{\begin{matrix} (ω^{T} x_{i} + b) / ‖ ω ‖ \geq d & y_{i} = 1 \\ (ω^{T} x_{i} + b) / ‖ ω ‖ \leq d & y_{i} = - 1 \end{matrix}

不等式两边同时除以d，可以得到：

{\begin{matrix} ω_{d}^{T} x_{i} + b_{d} \geq 1 & y_{i} = 1 \\ ω_{d}^{T} x_{i} + b_{d} \leq - 1 & y_{i} = - 1 \end{matrix}

其中

ω_{d} = \frac{ω}{‖ ω ‖ d}, b_{d} = \frac{b}{‖ ω ‖ d}

实际上

ω_{d}^{T} x_{i} + b_{d} = 0

和

ω^{T} x_{i} + b = 0

是同样的超平面，既然如此我们就把

ω_{d}

和

b_{d}

继续叫做

ω

和

b

，那么我们就获得了SVM优化问题的约束条件:

\begin{matrix} (1.1) & {\begin{matrix} ω^{T} x_{i} + b \geq 1 & y_{i} = 1 \\ ω^{T} x_{i} + b \leq - 1 & y_{i} = - 1 \end{matrix} \end{matrix}

支持向量机（SVM）和python实现（一）

(图片来自https://www.cnblogs.com/freebird92/p/8909546.html)

如上图所示的距离超平面最近的几个训练样本点使(1.1)中的等号成立，这些点我们称为“支持向量”，两个异类支持向量到超平面的距离之和为 $\frac{2}{{‖ ω ‖}^{2}}$ ，我们希望这个值越大越好，即 $\frac{1}{2} {‖ ω ‖}^{2}$ 越小越好，所以我们的问题就变成了：

\begin{matrix} (1.2) & m i n \frac{1}{2} {‖ ω ‖}^{2} s . t . y_{i} (ω^{T} x_{i} + b) \geq 1, i = 1, 2, . . ., m . \end{matrix}

2. 对偶问题

式(1.2)是一个凸二次规划问题，我们可以使用拉格朗日乘子法获取其对偶问题来求解，引入拉格朗日乘子 $α_{i} \geq 0 i = 1, 2, . . ., m$ ,则式(1.2)写为：

\begin{matrix} (2.1) & L (ω, b, α) = \frac{1}{2} {‖ ω ‖}^{2} + \sum_{i = 1}^{m} α_{i} (1 - y_{i} (ω^{T} x_{i} + b)) \end{matrix}

对

ω

，b求偏导为0可得：

\begin{matrix} (2.2) & ω = \sum_{i = 1}^{m} α_{i} y_{i} x_{i} 0 = \sum_{i = 1}^{m} α_{i} y_{i} \end{matrix}

将(2.2)带入(2.1)可得：

\begin{matrix} (2.3) & \begin{aligned} L (ω, b, α) & = \frac{1}{2} {‖ ω ‖}^{2} + \sum_{i = 1}^{m} α_{i} (1 - y_{i} (ω^{T} x_{i} + b)) \\ = \frac{1}{2} ω^{T} ω - ω^{T} \sum_{i = 1}^{m} α_{i} y_{i} x_{i} + \sum_{i = 1}^{m} α_{i} - \sum_{i = 1}^{m} α_{i} y_{i} b \\ = \frac{1}{2} ω^{T} (ω - 2 \sum_{i = 1}^{m} α_{i} y_{i} x_{i}) + \sum_{i = 1}^{m} α_{i} \\ = \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1, j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} \end{aligned} \end{matrix}

最后的对偶问题为：

\begin{matrix} (2.4) & m a x . \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1, j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} s . t . α_{i} \geq 0 \sum_{i = 1}^{m} α_{i} y_{i} \end{matrix}

解出

α

后求出

ω

和b就可以得到模型：

\begin{matrix} (2.5) & f (x) = ω^{T} x + b = \sum_{i = 1}^{m} α_{i} y_{i} x_{i} x + b \end{matrix}

因为式(1.2)含有不等式约束，因此对偶问题应满足KKT条件，这里稍微说一下KKT条件怎么获得的。

KKT条件

支持向量机（SVM）和python实现（一）

（图来自https://zhuanlan.zhihu.com/p/24638007）

不等式约束 $g (x) \leq 0$ 即为图中的可行解区域，最优解 $x^{*}$ 的位置有两种情况：在可行区域边界上或者在可行区域内部。
在边界上：这种情况下 $g (x) = 0$ ，目标函数 $f (x)$ 在可行解区域边缘更大，可行解区域其他地方更小，而 $g (x)$ 在可行解区域内小于0，外部大于0，意味着 $f (x)$ 的梯度方向与约束条件函数 $g (x)$ 的梯度方向相反，则在最优解处满足下式：

\nabla f (x^{*}) + λ \nabla g (x^{*}) = 0

根据上式可以推出当最优解在边界上时

λ > 0

在区域内：这种情况相当于约束条件不存在，因此拉格朗日乘子

λ = 0

，

g (x) < 0

这样就得出了KKT条件

{\begin{matrix} g (x) \leq 0 \\ λ \geq 0 \\ λ g (x) = 0 \end{matrix}

其中第一个式子是约束本身，第二个式子是对拉格朗日乘子的描述，第三个式子是综合上述2种情况后获得的表达。

现在我们再回到之前的对偶问题中，(2.4）需要满足的KKT条件为：

{\begin{matrix} α_{i} \geq 0 \\ y_{i} f (x_{i}) - 1 \geq 0 \\ α_{i} (y_{i} f (x_{i}) - 1) = 0 \end{matrix}

于是，对于任意训练样本，总有

α_{i} = 0

或

y_{i} f (x_{i}) = 1

，当

α_{i} = 0

时，该样本不会对目标函数产生影响，若

α_{i} > 0

，则必有

y_{i} f (x_{i}) = 1

，此时对应样本位于最大间隔边界上，是一个支持向量。

3. 核函数

前面我们举的例子都是线性可分的，如果找不到一条直线将两个数据集分离的时候该怎么办呢？
支持向量机（SVM）和python实现（一）
（图片来自http://www.360doc.com/content/14/0526/16/10724725_381159791.shtml）
对于这样的问题，我们可以通过将样本点从原始空间映射到一个更高维的特征空间，使在这个新的特征空间内，样本点变得线性可分，就像上图描述的那样，我们用 $φ (x)$ 来表示将x映射后的特征向量，于是我们就可以将模型写为：

\begin{matrix} (3.1) & f (x) = ω^{T} φ (x) + b = \sum_{i = 1}^{m} α_{i} y_{i} φ (x)^{T} φ (x_{i}) + b \end{matrix}

对偶问题也描述为：

\begin{matrix} (3.2) & m a x . \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1, j = 1}^{m} α_{i} α_{j} y_{i} y_{j} φ (x_{i})^{T} φ (x_{j}) s . t . α_{i} \geq 0 \sum_{i = 1}^{m} α_{i} y_{i} \end{matrix}

求解(3.2)涉及到计算

φ (x_{i})^{T} φ (x_{j})

考虑到样本x映射到特征空间后维数可能很高，因此直接计算

φ (x_{i})^{T} φ (x_{j})

是很困难的，为了避免这种情况，我们引入下面这样的函数：

κ_{i j} = κ (x_{i}, x_{j}) = ⟨ φ (x_{i}), φ (x_{j}) ⟩ = φ (x_{i})^{T} φ (x_{j})

即

x_{i}

和

x_{j}

在特征空间的内积等于他们在原始样本空间中通过函数

κ (x_{i}, x_{j})

计算的结果，于是式(3.2)就可以重新写为：

\begin{matrix} (3.3) & m a x . \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1, j = 1}^{m} α_{i} α_{j} y_{i} y_{j} κ_{i j} s . t . α_{i} \geq 0 \sum_{i = 1}^{m} α_{i} y_{i} \end{matrix}

式(3.1)重写为：

\begin{matrix} (3.4) & f (x) = ω^{T} φ (x) + b = \sum_{i = 1}^{m} α_{i} y_{i} κ (x_{i}, x) + b \end{matrix}

这里的

κ (x_{i}, x_{j})

就是核函数，显然，如果已知合适的

φ (x)

，我们很容易就可以写出核函数

κ (x_{i}, x_{j})

，但是在一个任务中我们通常都不知道

φ (x)

是什么形式的，那么我们该怎么取核函数呢？

令 $χ$ 为输入空间， $κ (x_{i}, x_{j})$ 是定义在 $χ \times χ$ 上的对称函数，则 $κ$ 是核函数当且仅当对于任意数据 $D = {x_{1}, x_{2}, . . ., x_{m}}$ ，“核矩阵”K总是半正定的：

K = [\begin{matrix} κ (x_{1}, x_{1}) & . . . & κ (x_{1}, x_{j}) & . . . & κ (x_{1}, x_{m}) \\ . . . & . . . & . . . & . . . & . . . \\ κ (x_{i}, x_{1}) & . . . & κ (x_{i}, x_{j}) & . . . & κ (x_{i}, x_{m}) \\ . . . & . . . & . . . & . . . & . . . \\ κ (x_{m}, x_{1}) & . . . & κ (x_{m}, x_{j}) & . . . & κ (x_{m}, x_{m}) \end{matrix}]

只要一个对称函数所对应的核矩阵半正定，他就能作为核函数使用，实际上，对于一个半正定核矩阵，总能找到一个与之对应的映射 $φ$ ，换言之，任何一个核函数都隐式地定义了一个称为“再生和希尔伯特空间”的特征空间。前面说过，我们希望选取合适的核函数使样本在新特征空间内线性可分，因此特征空间的好坏对SVM的性能至关重要，下面给出一些常用的核函数：

线性核： $κ_{i j} = κ (x_{i}, x_{j}) = x_{i}^{T} x_{j}$
多项式核： $κ_{i j} = κ (x_{i}, x_{j}) = {(x_{i}^{T} x_{j})}^{d}$
高斯核： $κ_{i j} = κ (x_{i}, x_{j}) = e x p (- \frac{{‖ x_{i} - x_{j} ‖}^{2}}{2 σ^{2}})$
拉普拉斯核： $κ_{i j} = κ (x_{i}, x_{j}) = e x p (- \frac{‖ x_{i} - x_{j} ‖}{σ})$
Sigmoid核： $κ_{i j} = κ (x_{i}, x_{j}) = t a n h (β x_{i}^{T} x_{j} + θ)$

此外，还可以通过函数组合得到核函数：

存在2个核函数 $κ_{1}$ 和 $κ_{2}$ ，他们的线性组合 $a κ_{1} + b κ_{2}$ 也是核函数
存在2个核函数 $κ_{1}$ 和 $κ_{2}$ ，他们的直积 $κ_{1} \otimes κ_{2}$ 也是核函数
存在核函数 $κ_{1}$ ，对于任意函数 $g (x)$ , $κ = g (x) κ_{1} g (x)$ 也是核函数

传送门

支持向量机（SVM）和python实现（二）https://blog.csdn.net/z962013489/article/details/82559626
支持向量机（SVM）和python实现（三）https://blog.csdn.net/z962013489/article/details/82622036

支持向量机（SVM）和python实现（一）

1. 问题的提出

2. 对偶问题

KKT条件

3. 核函数

传送门

相关推荐