从零开始-Machine Learning学习笔记(12)-SMO算法解析

SMO-Sequential Minimal Optimization，序列最小优化，SMO的基本思路就是：先固定 $α_{i}$ 之外的所有参数，然后求 $α_{i}$ 的极值。但是问题中存在约束条件： $\sum_{i = 0}^{m} α_{i} y_{i} = 0$ 。如果固定了 $α_{i}$ 之外的其他变量，则 $α_{i}$ 可以由其他的变量导出。于是，一次只留一个参数，固定其余参数的方法在这里是不适用的，但是这个思想却给了我们不错的启发。那么，SMO可以每次选择两个变量 $α_{i}$ 和 $α_{j}$ ，并固定其他参数。这样，在参数初始化之后，SMO不断迭代重复下面的步骤，直至收敛：

选取一对新的 $α_{i}$ 和 $α_{j}$ ;
固定 $α_{i}$ 和 $α_{j}$ 之外的参数，求解前面的优化问题，获取更新后的 $α_{i}$ 和 $α_{j}$ 。

假设我们选择 $α_{1}$ 与 $α_{2}$ 是变量，其余的 $α_{i}$ 是定值，常数，那么原来的目标函数：
$\begin{array}{l} min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} K (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} \\ s . t . \sum_{i = 1}^{N} α_{i} y_{i} = 0 \\ 0 \leq α_{i} \leq C, i = 1, 2, \dots N \end{array}$

就变为对 $α_{1}$ 与 $α_{2}$ 的优化：

\begin{array}{l} min_{α_{1}, α_{2}} W (α_{1}, α_{2}) \end{array}

1. 原目标函数化简

我们来逐步化简原来的目标函数，其中只有 $α_{1}$ 与 $α_{2}$ 是变量，其余的都是常数：

\begin{array}{l} min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} K (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} \end{array}

我们分别取

$i = 1, j = 1$

$i = 1, j = 2$

$i = 1, j \neq 1, 2$

$j = 1, i \neq 1, 2$

$i = 2, j = 1$

$i = 2, j = 2$

$i = 2, j \neq 1, 2$

$j = 2, i \neq 1, 2$

$i \neq 1, 2, j \neq 1, 2$

这样我们就可以把目标函数化成只有变量 $α_{1}$ 与 $α_{2}$ ，其余的项都可以合并为常数C：

\begin{array}{l} min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} K (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} \\ = min_{α} \frac{1}{2} [α_{1}^{2} K_{11} + α_{1} α_{2} y_{1} y_{2} K_{12} + 2 \sum_{j = 3}^{N} α_{1} α_{j} y_{1} y_{j} K_{1 j} \\ + α_{2} α_{1} y_{2} y_{1} K_{21} + α_{2}^{2} K_{22} + 2 \sum_{j = 3}^{N} α_{2} α_{j} y_{2} y_{j} K_{2 j} + C_{1}] \\ - (α_{1} + α_{2}) - C_{2} \\ = min_{α} \frac{1}{2} [α_{1}^{2} K_{11} + α_{2}^{2} K_{22} + 2 α_{1} α_{2} y_{1} y_{2} K_{12} + 2 \sum_{j = 3}^{N} α_{1} α_{j} y_{1} y_{j} K_{1 j} \\ + 2 \sum_{j = 3}^{N} α_{2} α_{j} y_{2} y_{j} K_{2 j}] - (α_{1} + α_{2}) + C \\ = min_{α} \frac{1}{2} [α_{1}^{2} K_{11} + α_{2}^{2} K_{22} + 2 α_{1} α_{2} y_{1} y_{2} K_{12} + 2 α_{1} y_{1} v_{1} + 2 α_{2} y_{2} v_{2}] - (α_{1} + α_{2}) + C \end{array}

其中：

v_{1} = \sum_{j = 3}^{N} α_{j} y_{j} K_{1 j} v_{2} = \sum_{j = 3}^{N} α_{j} y_{j} K_{2 j}

于是，我们的目标函数就转化为上式的样子。

2. 解的范围

要求解上述的优化问题，必定先确定解的范围，根据原来的约束条件我们知道：

α_{1} y_{1} + α_{2} y_{2} = K 0 < α_{1} < C 0 < α_{2} < C

其中我们知道

y_{i}^{2} = 1

，所以对于第一个约束条件我们可以有两种表示方式：

$y_{1} = y_{2} 时， α_{1} + α_{2} = K$

$y_{1} \neq y_{2} 时， α_{1} - α_{2} = K$

从零开始-Machine Learning学习笔记(12)-SMO算法解析

k具体是多少我们并不关心，但是我们知道α1和α2的取值都落在途中的直线上。k无非就是一个截距，随着k的变化，这根直线在方框内会上下移动，交点也变，但是一定要在方框范围内，所以边界一定会落在方框与直线的交点上。设L为α2可能的最小取值，H为α2可能的最大取值,那么有：

$y_{1} = y_{2} 时， α_{1} + α_{2} = K ，则 α_{2} = K - α_{1}$

我们都知道 $0 < α_{1} < C, 0 < α_{2} < C$ ;

当 $α_{1} = C$ 时， $α_{2}$ 取得最小值,即 $α_{2} = K - C$ ,但是， $0 < α_{2}$ ,所以最小值在这两者中取得，于是：
$L = m a x {0, K - C} = m a x {0, α_{1} + α_{2} - C}$
当 $α_{1} = 0$ 时， $α_{2}$ 取得最大值,即 $α_{2} = K$ 但是， $α_{2} < C$ ,所以最大值在这两者中取得，于是：
$H = m i n {K, C} = m i n {α_{1} + α_{2}, C}$
$y_{1} \neq y_{2} 时， α_{1} - α_{2} = K ，则 α_{2} = α_{1} - K$

我们都知道 $0 < α_{1} < C, 0 < α_{2} < C$ ;

当 $α_{1} = 0$ 时， $α_{2}$ 取得最小值,即 $α_{2} = - K$ 但是， $0 < α_{2}$ 以最小值在这两者中取得，于是：

L = m a x {0, - K} = m a x {0, α_{2} - α_{1}}

当 $α_{1} = C$ 时， $α_{2}$ 取得最大值,即 $α_{2} = C - K$ 但是， $α_{2} < C$ ,所以最大值在这两者中取得，于是：

H = m i n {C, C - K} = m i n {C, C + α_{2} - α_{1}}

3.求解过程

先将 $α_{1}$ 用 $α_{2}$ 来表示，因为 $α_{1} y_{1} + α_{2} y_{2} = k （ c o n s t ）$ ，两边同时乘以 $y_{1}$ ,于是有：

α_{1} = (k - α_{2} y_{2}) y_{1}

带入到我们之前化简的目标函数中，那么目标函数就变为只有变量

α_{2}

的优化问题了：

\begin{array}{l} min_{α} \frac{1}{2} [α_{1}^{2} K_{11} + α_{2}^{2} K_{22} + 2 α_{1} α_{2} y_{1} y_{2} K_{12} + 2 α_{1} y_{1} v_{1} + 2 α_{2} y_{2} v_{2}] - (α_{1} + α_{2}) + C \\ = min_{α} \frac{1}{2} [((k - α_{2} y_{2}) y_{1})^{2} K_{11} + 2 (k - α_{2} y_{2}) α_{2} y_{2} K_{12} \\ + 2 (k - α_{2} y_{2}) v_{1} + 2 α_{2} y_{2} v_{2}] - ((k - α_{2} y_{2}) y_{1} + α_{2}) + C \end{array}

其中，v1与v2需要变换一下，不能直接运算，因为SVM的模型为：

f (x) = w^{T} x + b = \sum_{i = 1}^{N} α_{i} y_{i} K (x_{i}, x_{j}) + b, 则 f (x_{1}) = α_{1} y_{1} K_{11} + α_{2} y_{2} K_{12} + \sum_{i = 3}^{N} α_{i} y_{i} K (x_{i}, x_{j}) + b = α_{1} y_{1} K_{11} + α_{2} y_{2} K_{12} + v_{1} + b f (x_{2}) = α_{1} y_{1} K_{12} + α_{2} y_{2} K_{22} + \sum_{i = 3}^{N} α_{i} y_{i} K (x_{i}, x_{j}) + b = α_{1} y_{1} K_{12} + α_{2} y_{2} K_{22} + v_{2} + b

所以可以间接求出v1与v2为：

v_{1} = f (x_{1}) - α_{1} y_{1} K_{11} - α_{2} y_{2} K_{12} - b = f (x_{1}) - (k - α_{2} y_{2}) K_{11} - α_{2} y_{2} K_{12} - b v_{2} = f (x_{2}) - α_{1} y_{1} K_{12} - α_{2} y_{2} K_{22} - b = f (x_{2}) - (k - α_{2} y_{2}) K_{12} - α_{2} y_{2} K_{22} - b

所以，此时目标函数就只是一元函数，我们对其求倒数，并使其为0，就可以求出

α_{2}

\begin{array}{l} \frac{\partial W}{\partial α_{2}} = \frac{1}{2} [2 ((k - α_{2} y_{2}) y_{1}) (- y_{1} y_{2}) K_{11} + 2 α_{2} K_{22} + 2 (k - 2 α_{2} y_{2}) y_{1} y_{1} y_{2} K_{12} + 2 (- y_{1} y_{2}) α_{2} (y_{1} y_{2}) K_{12} \\ + 2 (- y_{1} y_{2}) y_{1} v_{1} + 2 y_{2} v_{2}] - (- y_{1} y_{2} + 1) \\ = (α_{2} - k y_{2}) K_{11} + α_{2} K_{22} + (k y_{2} - 2 α_{2}) K_{12} - y_{2} v_{1} + y_{2} v_{2} + y_{1} y_{2} - 1 \\ = α_{2} (K_{11} + K_{22} - 2 K_{12}) - k y_{2} K_{11} + k y_{2} K_{12} - y_{2} v_{1} + y_{2} v_{2} + y_{1} y_{2} - 1 \\ = α_{2} (K_{11} + K_{22} - 2 K_{12}) - k y_{2} K_{11} + k y_{2} K_{12} - y_{2} (v_{1} - v_{2}) + y_{1} y_{2} - 1 = 0 \end{array}

此时我们把v1与v2带入就可以得到迭代公式：

α_{2}^{*} (K_{11} + K_{22} - 2 K_{12}) = k y_{2} (K_{11} - K_{12}) + y 2 (v_{1} - v_{2}) - y_{1} y_{2} + 1 = k y_{2} (K_{11} - K_{12}) + y 2 [f (x_{1}) - f (x_{2}) + (k - α_{2} y_{2}) (K_{12} - K_{11}) + α_{2} y_{2} (K_{22} - K_{12})] - y_{1} y_{2} + y_{2}^{2} = α_{2} (K_{11} + K_{22} - 2 K_{12}) + y_{2} [(f (x_{1}) - y_{1}) - (f (x_{2}) - y_{2})]

于是我们可以得到递推公式：

α_{2}^{*} = α_{2} + \frac{y_{2} [(f (x_{1}) - y_{1}) - (f (x_{2}) - y_{2})]}{K_{11} + K_{22} - 2 K_{12}} = α_{2} + y_{2} \frac{E_{1} - E_{2}}{η}

其中

E_{j}

是预测值与实际值之差，

η = K_{11} + K_{22} - 2 K_{12}

最后将 $α_{2}$ 的值进行约束：

α_{2}^{n e w} = {\begin{cases} H, & α_{2}^{*} > H \\ α_{2}^{*}, & L \leq α_{2}^{*} \leq H \\ L, & α_{2}^{*} < L \end{cases}

得到

α_{2}

之后就可以由约束条件

α_{1} y_{1} + α_{2} y_{2} = α_{1}^{n e w} y_{1} + α_{2}^{n e w} = k

得到

α_{1}

：

α_{1}^{n e w} = α_{1} + y_{1} y_{2} (α_{2} - α_{2}^{n e w})

大部分情况下， $η > 0$ ，但是当 $η \leq 0$ 的时候就比较麻烦了，需要更为复杂的求解手段。详情可以见我后面附上的参考博客。在现实中，这种情况不常发生，因此忽略也无伤大雅，在程序中遇到了一般的处理是跳过此次循环。

4、求解w与b

w的求解可以通过： $w^{*} = \sum_{i = 1}^{m} α_{i}^{*} y_{i} x_{i}$ 求得。

b可以通过kkt条件求出：

这是原优化问题的KKT条件：

当 $α_{i} = 0$ 时，分类是正确的；
当 $0 \leq α_{i} \leq C$ 时，这时的样本点是支持向量，处在边界上；
当 $α_{i} = C$ 时，位于边界之间。

参考上面的KKT条件进行分类讨论：

如果 $0 < α_{1} < C$ ，则(x1,y1)为支持向量，满足 $y_{i} (\sum_{i = 1}^{m} α_{i} y_{i} K_{i 1} + b_{1}) = 1$ ：
$α_{1}^{*} y_{1} K_{11} + α_{2}^{*} y_{2} K_{21} + \sum_{i = 3}^{m} α_{i} y_{i} K_{i 1} + b_{1}^{*} = y_{1}$

$b_{1}^{*} = y_{1} - \sum_{i = 3}^{m} α_{i} y_{i} K_{i 1} - α_{1}^{*} y_{1} K_{11} - α_{2}^{*} y_{2} K_{21} = y_{1} - v_{1} - α_{1}^{*} y_{1} K_{11} - α_{2}^{*} y_{2} K_{21} = y_{1} - [f (x_{1}) - α_{1} y_{1} K_{11} - α_{2} y_{2} K_{12} - b] - α_{1}^{*} y_{1} K_{11} - α_{2}^{*} y_{2} K_{21} = b_{1} - E_{1} - y_{1} K_{11} (α_{1}^{*} - α_{1}) - y_{2} K_{21} (α_{2}^{*} - α_{2})$

2.如果 $0 < α_{2} < C$ ，则(x2,y2)为支持向量,那么可以得到 $b_{2}$ :

b_{2}^{*} = b_{2} - E_{2} - y_{1} K_{12} (α_{1}^{*} - α_{1}) - y_{2} K_{22} (α_{2}^{*} - α_{2})

3.如果同时有

0 < α_{1} < C ， 0 < α_{2} < C

,那么有

b_{1}^{*} = b_{2}^{*}

。

4.如果均不满足 $0 \leq α_{i} \leq C$ 就取两者中点： $b^{*} = \frac{b_{1}^{*} + b_{2}^{*}}{2}$

在周志华老师的《机器学习》中，还给出了一个更为鲁棒的求法：使用所有支持向量求解的平均值：

b = \frac{1}{| S |} \sum_{s \in S} (\frac{1}{y_{s}} - \sum_{i \in S} α_{i} y_{i} x_{i}^{T} x_{s})

其中S是所有支持向量的下标集合。

5.总结

SMO的公式推导还是比较复杂的，但是越推就越觉得Platt这些人确实厉害，能推导出如此美丽的公式。钦佩之余，自己又在机器学习的道路上前进了许多，也愈发的觉得自己懂的还是太少，即便是全部推完了这些公式，不会应用的惶恐之心又涌上心头。但是，学无止境，只要一直在路上就一定会到达目的地！

下一篇博客中，我会去研究SMO中启发式的变量选择，看这种方式是如何提高算法的效率的！

参考资料：

周志华《机器学习》-支持向量机

机器学习入门笔记：（4.3）SMO算法

支持向量机（五）SMO算法

从零开始-Machine Learning学习笔记(12)-SMO算法解析

1. 原目标函数化简

2. 解的范围

3.求解过程

4、求解w与b

5.总结

参考资料：

相关推荐