对SVM的推导和编码实践（二）SMO算法的推导

目标函数和约束条件

\begin{matrix} (13) & \underset{α}{m i n} \frac{1}{2} \sum_{i, j = 1}^{N} α_{i} α_{j} y_{i} y_{j} < x_{i}, x_{j} > - \sum_{i = 1}^{N} α_{i} s . t ., \sum_{i = 1}^{N} α_{i} y_{i} = 0 0 \leq α_{i} \leq C \end{matrix}

SMO简介

SMO算法的目标是求出一系列alpha和b，一旦求出了这些alpha和b，就很容易计算出权重向量w并得到分隔超平面。

SMO算法的工作原理是：每次循环中选择两个alpha进行优化处理。一旦找到一对合适的alpha，那么就增大其中一个同时减小另一个。这里所谓的“合适”就是指两个alpha必须要符合一定的条件，条件之一就是这两个alpha必须要在间隔边界之外，而其第二个条件则是这两个alpha还没有进行过区间化处理或者不在边界上。

Platt SMO算法中的外循环确定要优化的最佳alpha对。而简化版却会跳过这一部分，首先在数据集上遍历每一个alpha，然后在剩下的alpha集合中随机选择另一个alpha，从而构建alpha对。这里有一点相当重要，就是我们要同时改变两个alpha。之所以这样做是因为我们有一个约束条件：
$\begin{matrix} (14) & \sum_{i = 1}^{N} α_{i} y_{i} = 0 \end{matrix}$
由于改变一个alpha可能会导致该约束条件失效，因此我们总是同时改变两个alpha。

SMO是一个可以快速解决SVM QP问题而不使用矩阵存储空间和数值优化步的简单算法。SMO使用Qsuna的理论分解QP问题以确保收敛。

SMO在每一步选择尽可能小的优化问题。对标准的SVM QP问题，最小的优化问题涉及到两个拉格朗日乘数，因为拉格朗日乘数必须遵循一个线性等式约束。在每一步SMO选择两个乘数一起优化，寻找最优值，更新SVM以体现这些新的最优值。

SMO的优势体现于解那两个乘数的最优值的时候可以直接计算解析解而不是通过数值优化。此外，SMO不需要额外的空间存储矩阵，因此非常大规模的SVM训练问题也可以装进一台普通的个人电脑的内存里。因为没有涉及到矩阵算法，SMO算法不受数值精度问题的影响。

SMO由两部分组成：
1、解那两个拉格朗日乘数的解析解
2、如何选择那两个拉格朗日乘数进行优化的启发式算法

SMO的基本思路

确保自己理解思路，觉得《统计学习方法》里面这段话很重要，于是抄录如下：

SMO算法是一种启发式算法，其基本思路是：如果所有变量的解都满足此优化问题的KKT条件，那么这个最优化问题的解就得到了。因为KKT条件是该最优化问题的充分必要条件。否则，选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题。这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解，因为这会使得原始二次规划问题的目标函数的值变得更小。重要的是，这时子问题可以通过解析方法求解（注：求导什么的）。这样就可以大大提高整个算法的计算速度。子问题有两个变量，一个是违反kkt条件最严重的那一个，另一个由约束条件自动确定。如此，SMO算法将原问题不断分解为子问题并对子问题求解，进而达到求原问题的目的。

两个变量的二次规划求解方法

得到alpha _1,alpha _2的递推公式

假设已经选择 $α_{1}, α_{2}$ ，其他橙子是固定的，于是式(13)可以写成：

\begin{matrix} (14) & \underset{α_{1}, α_{2}}{m i n} \frac{1}{2} α_{1}^{2} < x_{1}, x_{1} > + \frac{1}{2} α_{2}^{2} < x_{2}, x_{2} > + α_{1} α_{2} y_{1} y_{2} < x_{1}, x_{2} > - α_{1} - α_{2} + α_{1} y_{1} \sum_{i = 3}^{N} α_{i} y_{i} < x_{i}, x_{1} > + α_{2} y_{2} \sum_{i = 3}^{N} α_{i} y_{i} < x_{i}, x_{2} > s . t ., α_{1} y_{1} + α_{2} y_{2} = - \sum_{i = 3}^{N} α_{i} y_{i} = ζ 0 \leq α_{i} \leq C, i = 1, 2 \end{matrix}

对于上述优化问题来说常数因子没有意义，故省略了很多不含 $α_{1}, α_{2}$ 的常数项，如 $α_{3} α_{4} y_{3} y_{4} < x_{3}, x_{4} >$ 。
因为符号太多，想办法做下简化，令
$\begin{matrix} (15) & K_{i j} = K (x_{i}, x_{j}) =< x_{i}, x_{j} > \end{matrix}$
如上一章所讲，内积只是 $x_{i}, x_{j}$ 是数据集线性可分的情况下的计算方式，如果引入其他升维核函数将不是内积，这里用 $K_{i j}$ 来代换是合适的。
(14)写成：

\begin{matrix} (16) & \underset{α_{1}, α_{2}}{m i n} \frac{1}{2} α_{1}^{2} K_{11} + \frac{1}{2} α_{2}^{2} K_{22} + α_{1} α_{2} y_{1} y_{2} K_{12} - α_{1} - α_{2} + α_{1} y_{1} \sum_{i = 3}^{N} α_{i} y_{i} K_{i 1} + α_{2} y_{2} \sum_{i = 3}^{N} α_{i} y_{i} K_{i 2} s . t ., α_{1} y_{1} + α_{2} y_{2} = - \sum_{i = 3}^{N} α_{i} y_{i} = ζ 0 \leq α_{i} \leq C, i = 1, 2 \end{matrix}

另外我们发现

\sum_{i = 1}^{N} α_{i} y_{i} < x_{i}, x_{1} >

不就是

w^{T} x_{1}

吗，（16）和式的后两项其实就是对x1,x2预测的计算过程去掉两个样本（用来更新 $α_{1}, α_{2}$ 的那两个样本），有点意思。
我们把决策公式记为：

\begin{matrix} (17) & g (x) = \sum_{i = 1}^{N} α_{i} y_{i} K (x_{i}, x) + b \end{matrix}

引进记号
$\begin{matrix} (18) & v_{j} = \sum_{i = 3}^{N} α_{i} y_{i} K_{i j} = g (x_{j}) - \sum_{i = 1, 2} α_{i} y_{i} K_{i j} - b \end{matrix}$
要想记住它就这样记忆： $v_{i}$ 是对第i个样本进行预测的向量相乘( $w^{T} x - b$ )忽略前两个样本。
则（16）式改写成：

\begin{matrix} (19) & \underset{α_{1}, α_{2}}{m i n} \frac{1}{2} α_{1}^{2} K_{11} + \frac{1}{2} α_{2}^{2} K_{22} + α_{1} α_{2} y_{1} y_{2} K_{12} - α_{1} - α_{2} + α_{1} y_{1} v_{1} + α_{2} y_{2} v_{2} s . t ., α_{1} y_{1} + α_{2} y_{2} = - \sum_{i = 3}^{N} α_{i} y_{i} = ζ 0 \leq α_{i} \leq C, i = 1, 2 \end{matrix}

为什么要做这些记号，这是因为我们的关注点始终是

α_{1}, α_{2}

这些系数什么的只要和

α_{1}, α_{2}

无关，那么在求解的过程中只是被带来带去而已，简写之后看起来简洁，计算不易出错，什么时候要恢复成原样，把记号替换了就行。马上就可以看到疗效。

符号撸完之后，现在开始求解：
1、把 $α_{1}$ 用 $α_{2}$ 表示： $α_{1} = y_{1} (ζ - α_{2} y_{2})$ 并带入19，就只剩下变量 $α_{2}$ 了：

\begin{matrix} (20) & \underset{α_{1}, α_{2}}{m i n} \frac{1}{2} K_{11} (ζ - y_{2} α_{2})^{2} + \frac{1}{2} K_{22} α_{2}^{2} + y_{2} K_{12} (ζ - y_{2} α_{2}) α_{2} - y_{1} (ζ - y_{2} α_{2}) - α_{2} + v_{1} (ζ - y_{2} α_{2}) + y_{2} v_{2} α_{2} \end{matrix}

注意，

y_{1}^{2} = 1

所以被消掉，为了好看我们把

α_{2}

的系数全部写在了前面

2、（20）式min后面的函数对 $α_{2}$ 求导并令为0，得

- K_{11} ζ y_{2} + K_{11} α_{2} + K_{22} α_{2} + K_{12} y_{2} ζ - 2 K_{12} α_{2} + y_{1} y_{2} - 1 - y_{2} v_{1} + y_{2} v_{2} = 0 \Rightarrow K_{11} α_{2} + K_{22} α_{2} - 2 K_{12} α_{2} - K_{11} ζ y_{2} + K_{12} ζ y_{2} + y_{1} y_{2} - 1 - v_{1} y_{2} + y_{2} v_{2} = 0 \Rightarrow (K_{11} + K_{22} - 2 K_{12}) α_{2} = y_{2} (K_{11} ζ - K_{12} ζ + y_{2} - y_{1} + v_{1} - v_{2})

把v1，v2的原式带入：

(K_{11} + K_{22} - 2 K_{12}) α_{2} = y_{2} [\begin{matrix} K_{11} ζ - K_{12} ζ + y_{2} - y_{1} + (g (x_{1}) - \sum_{i = 1, 2} α_{i} y_{i} K_{i 1} - b) - (g (x_{2}) - \sum_{i = 1, 2} α_{i} y_{i} K_{i 2} - b) \end{matrix}] = y_{2} [\begin{matrix} (g (x_{1}) - y_{1}) - (g (x_{2}) - y_{2}) + K_{11} ζ - K_{12} ζ - \sum_{i = 1, 2} α_{i} y_{i} K_{i 1} + \sum_{i = 1, 2} α_{i} y_{i} K_{i 2} \end{matrix}]

接着做两个动作
a.记

E_{i} = g (x_{i}) - y_{i}

表示预测分类和真实分类的误差
b.把

ζ = \sum_{i = 1, 2} α_{i}^{o l d} y_{i}

带进去

(K_{11} + K_{22} - 2 K_{12}) α_{2}^{n e w, u c p} = y_{2} (E_{1} - E_{2}) + y_{2} (K_{11} \sum_{i = 1, 2} α_{i} y_{i} - K_{12} \sum_{i = 1, 2} α_{i} y_{i} - \sum_{i = 1, 2} α_{i} y_{i} K_{i 1} + \sum_{i = 1, 2} α_{i} y_{i} K_{i 2}) = y_{2} (E_{1} - E_{2}) + y_{2} (K_{11} α_{2} y_{2} - K_{12} α_{2} y_{2} - α_{2} y_{2} K_{21} + α_{2} y_{2} K_{22}) = y_{2} (E_{1} - E_{2}) + (K_{11} - 2 K_{12} + K_{22}) α_{2}^{o l d}

漂亮，终于松一口气，接着
令 $η = K_{11} - 2 K_{12} + K_{22}$ ，则有：
$\begin{matrix} (21) & α_{2}^{n e w, u c p} = \frac{y_{2} (E_{1} - E_{2})}{η} + α_{2}^{o l d} \end{matrix}$

你可能对ucp这个标记不解，我们随后会解释.

这一步是求解 $α_{1} α_{2}$ 的里程碑，这里意味着我们有了一个递推公式，就像梯度下降一样，对于旧值我们知道了旧值→新值的步长。如果你对之前的推导和计算毫无兴趣，那么这个递推公式可以直接用于编程了

如何计算 $α_{1}$ ，因为无论新值旧值都要受到约束，因此

α_{1}^{n e w} y_{1} + α_{2}^{n e w} y_{2} = α_{1}^{o l d} y_{1} + α_{2}^{o l d} y_{2} \Rightarrow

\begin{matrix} (22) & α_{1}^{n e w} = \frac{α_{1}^{o l d} y_{1} + α_{2}^{o l d} y_{2} - α_{2}^{n e w} y_{2}}{y_{1}} = α_{1}^{o l d} - y_{1} y_{2} (α_{2}^{n e w} - α_{2}^{o l d}) \end{matrix}

可以看到a1和a2变化的绝对值是一样的，只是方向相反。

alpha _1，alpha _2的修剪问题

这里有一个很讨厌的问题，就是递推式(21)计算出来的 $α_{2}^{n e w, u c p}$ 可能太大或太小，换句话说它是有范围的。
直到现在我们只使用了约束条件中的求和等式（14），但是不等式还没有用。
我们首先应该意识到 $0 \leq α_{2}^{n e w, u c p} \leq C$ ，另外在迭代之前由变量旧值决定的 $ζ = \sum_{i = 1, 2} α_{i}^{o l d} y_{i}$ 仍然约束着新值。所以 $α_{2}^{n e w, u c p}$ 的边界应综合考虑这两条。

SMO作者论文中给出了这样一张图：
对SVM的推导和编码实践（二）SMO算法的推导

由于两个自变量的线性组合固定为常数，所以 $ζ = \sum_{i = 1, 2} α_{i}^{o l d} y_{i}$ 决定着一条直线，加上α本身的范围决定着一个线段。新的α取值仍然要保证在这条线段上，由于 $α_{1}^{n e w}$ 由 $α_{2}^{n e w}$ 计算出，所以只需考虑 $α_{2}^{n e w}$ 的范围控制在线段的断点即可，具体来说，
对于 $y_{1} \neq y_{2} :$
下界 $L = m a x (0, α_{2} - α_{1})$
上界 $H = m i n (C, C + α_{2} - α_{1})$
对于 $y_{1} = y_{2} :$
下界 $L = m a x (0, α_{2} + α_{1} - C)$
上界 $H = m i n (C, α_{2} + α_{1})$
这里面的α全部是旧值。

基于上下界限定，我们需要对 $α_{2}^{n e w, u c p}$ 进行修剪：

\begin{matrix} (23) & α_{2}^{n e w} = {\begin{matrix} L & i f : α_{2}^{n e w, u c p} < L \\ α_{2}^{n e w, u c p} & i f : L \leq α_{2}^{n e w, u c p} \geq H \\ H & i f : α_{2}^{n e w, u c p} > H \end{matrix} \end{matrix}

b的更新（递推公式）

α有n个，但是b只有1个，怎么确定b的递推公式呢？
考虑（17）式，当 $0 < α_{1}^{n e w} < C$ 有

∵ g (x_{1})^{n e w} = \sum_{i = 1}^{N} α_{i}^{n e w} y_{i} K (x_{i}, x_{1}) + b_{1}^{n e w} = y_{1} ∴ b_{1}^{n e w} = y_{1} - α_{1}^{n e w} y_{1} K_{11} - α_{2}^{n e w} y_{2} K_{21} - \sum_{3}^{N} α_{i} y_{i} K i 1 ∵ E_{1} = α_{1}^{o l d} y_{1} K_{11} + α_{2}^{o l d} y_{2} K_{21} + \sum_{3}^{N} α_{i} y_{i} K i 1 - y_{1} + b^{o l d} ∴ b_{1}^{n e w} = - E_{1} + α_{1}^{o l d} y_{1} K_{11} + α_{2}^{o l d} y_{2} K_{21} - α_{1}^{n e w} y_{1} K_{11} - α_{2}^{n e w} y_{2} K_{21} + b^{o l d} ∴ b_{1}^{n e w} = - E_{1} + y_{1} K_{11} (α_{1}^{o l d} - α_{1}^{n e w}) + y_{2} K_{21} (α_{2}^{o l d} - α_{2}^{n e w}) + b^{o l d}

也就是说x1在边界上（x1是支持向量）时能求出这个递推式，同样如果有 $0 < α_{2}^{n e w} < C$ 则：

b_{2}^{n e w} = - E_{2} + y_{1} K_{12} (α_{1}^{o l d} - α_{1}^{n e w}) + y_{2} K_{22} (α_{2}^{o l d} - α_{2}^{n e w}) + b^{o l d}

如果

0 < α_{1}^{n e w} < C

，

0 < α_{2}^{n e w} < C

，有

b_{1}^{n e w} = b_{2}^{n e w}

。

i f : α_{1} = 0 或 α_{1} = C 或 α_{2} = 0 或 α_{2} = C

那么

b_{1}^{n e w}, b_{2}^{n e w}

以及它们之间的任意一个数都是符合KKT条件的，这时选择它们的中点作为

b^{n e w}

。

综上：

\begin{matrix} (24) & b^{n e w} = {\begin{matrix} - E_{1} + y_{1} K_{11} (α_{1}^{o l d} - α_{1}^{n e w}) + y_{2} K_{21} (α_{2}^{o l d} - α_{2}^{n e w}) + b^{o l d} & i f : x_{1}, x_{2} are both support vector \\ \frac{b_{1}^{n e w} + b_{2}^{n e w}}{2} & o t h e r s \end{matrix} \end{matrix}

小结

至此所有的迭代公式都已经写出。简单总结如下：
SMO的基本思路是选出两个橙子，其余视为常量，重写目标函数是只保留 $α_{1}, α_{2}$ 相关项，重写目标函数限定 $\sum_{i = 1, 2} α_{i} y_{i}$

各种数学处理加替换，形成只有 $α_{2}$ 作为自变量的目标函数，然后求导志玲得到 $α_{2}$ 的迭代或称递推公式，自然得到 $α_{1}$ 的递推公式。

$α_{2}$ 的递推公式是第一个里程碑。

下一个里程碑是修剪超出范围的 $α_{1}, α_{2}$ 。

最后一个里程碑是b的迭代，这需要考察KKT条件。

我们所有的计算都是基于KKT条件及其演变的。

接下来，我们就可以写代码来实现这一部分了。