[机器学习]支持向量机4——SMO算法

根据上一篇的对偶问题的结论，我们现在的目的是计算下式子，也就是找到一系列 $α$ 使得 $(4.1)$ 公式达到最大值。

\begin{matrix} (4.1) & max_{α} \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i} x_{j} s t . \sum_{i = 1}^{m} α_{i} y_{i} = 0 α_{i} \geq 0 \end{matrix}

换一种表达方式那么就是让找到一系列 $α$ 使得 $(4.2)$ 公式达到最小值。

\begin{matrix} (4.2) & min_{α} \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i} x_{j} - \sum_{i = 1}^{m} α_{i} s t . \sum_{i = 1}^{m} α_{i} y_{i} = 0 α_{i} \geq 0 \end{matrix}

那么现在问题就是如何解

(4.2)

公式。不难发现，这是一个二次规划的问题。可使用通用的二次规化算法来求解。然而，该问题的规模正比于训练样本数，这会在实际中造成很大的开销。SMO（Sequential Minimal Optimization）可以更高效的解决上述SVM问题。

它的基本思路是先固定 $α_{i}$ 之外的所有参数，然后求 $α_{i}$ 上的极值，由于存在约束 $\sum_{i = 1}^{m} α_{i} y_{i} = 0$ ，若固定 $α_{i}$ 之外的其它变量，则 $α_{i}$ 可由其它变量导出。于是，SMO每次选择两个变量 $α_{i}, α_{j}$ ，并固定其它参数。

假设选择优化的参数是 $α_{1}, α_{2}$ ，那么需要固定其它 $m - 2$ 个参数。可以将 $(4.2)$ 式简化为只关于 $α_{1}, α_{2}$ 的式子。

\begin{matrix} (4.3) & \begin{aligned} min_{α_{1}, α_{2}} \frac{1}{2} (α_{1}^{2} y_{1}^{2} x_{1}^{2} + α_{2}^{2} y_{2}^{2} x_{2}^{2} + 2 α_{1} α_{2} y_{1} y_{2} x_{1} x_{2}) - (α_{1} + α_{2}) + y_{1} α_{1} v_{1} + y_{2} α_{2} v_{2} + C o n a t a n t \\ v_{i} = \sum_{j = 3}^{m} α_{j} x_{j} y_{j} x_{i} i = 1, 2 \end{aligned} \end{matrix}

其中 $C o n s t a n t$ 代表和 $α_{1}, α_{2}$ 无关的常数项。由于 $y_{i} * y_{i} == 1$ ，故上式可变为 $(4.4)$

\begin{matrix} (4.4) & \begin{aligned} min_{α_{1}, α_{2}} = \frac{1}{2} (α_{1}^{2} x_{1}^{2} + α_{2}^{2} x_{2}^{2} + 2 α_{1} α_{2} y_{1} y_{2} x_{1} x_{2}) - (α_{1} + α_{2}) + y_{1} α_{1} v_{1} + y_{2} α_{2} v_{2} + C o n a t a n t \\ v_{i} = \sum_{j = 3}^{m} α_{j} x_{j} y_{j} x_{i} i = 1, 2 \end{aligned} \end{matrix}

由于约束条件 $\sum_{i = 1}^{m} α_{i} y_{i} = 0 α_{i} \geq 0$ ，那么：

\begin{matrix} (4.5) & α_{1} y_{1} + α_{2} y_{2} = - \sum_{i = 3}^{m} α_{i} y_{i} = ζ \end{matrix}

可见 $ζ$ 为定值，则在等式两端同时乘以 $y_{1}$ ， $y_{1}^{2} = 1$ ，得到：

\begin{matrix} (4.6) & α_{1} = (ζ - α_{2} y_{2}) y_{1} \end{matrix}

将 $(4.6)$ 带入 $(4.4)$ 中：

\begin{matrix} (4.7) & min_{α_{2}} \frac{1}{2} (ζ - α_{2} y_{2})^{2} x_{1}^{2} + \frac{1}{2} α_{2}^{2} x_{2}^{2} + (ζ - α_{2} y_{2}) α_{2} y_{2} x_{1} x_{2} - (ζ - α_{2} y_{2}) y_{1} - α_{2} + (ζ - α_{2} y_{2}) v_{1} + y_{2} v_{2} α_{2} \end{matrix}

对 $(4.7)$ 的 $α_{2}$ 求导，并令求导后的式子为0，以便于求得极值。令 $(4.7)$ 式子为 $ψ (α_{2})$ :

\begin{matrix} (4.8) & \frac{\partial ψ (α_{2})}{\partial α_{2}} = (x_{1}^{2} + x_{2}^{2} - 2 x_{1} x_{2}) α_{2} - ζ y_{2} x_{1}^{2} + ζ y_{2} x_{1} x_{2} + y_{1} y_{2} - 1 - v_{1} y_{2} + v_{2} y_{2} = 0 \end{matrix}

由上式子假设求得了 $α_{2}$ 的值，带入 $(4.6)$ 即可求得 $α_{1}$ ，分为标记为 $α_{1}^{n e w}, α_{2}^{n e w}$ ，优化之前的记录为 $α_{1}^{o l d}, α_{2}^{o l d}$ 。由于 $(4.5)$ 式，可知
$\begin{matrix} (4.9) & ζ = α_{1}^{o l d} y_{1} + α_{2}^{o l d} y_{2} = α_{1}^{n e w} y_{1} + α_{2}^{n e w} y_{2} \end{matrix}$
由于对偶问题中已经求得 $ω = \sum_{i = 1}^{m} α_{i} y_{i} x_{i}$ ，SVM的超平面为 $\begin{matrix} (4.10) & f (x) = ω^{T} x + b \end{matrix}$ ，则
$\begin{matrix} (4.11) & f (x) = \sum_{i = 1}^{m} α_{i} y_{i} x_{i} x + b \end{matrix}$
由于 $v_{i} = \sum_{j = 3}^{m} α_{j} y_{j} x_{j} x_{i} i = 1, 2$
$\begin{matrix} (4.12) & v_{1} = f (x) - b - \sum_{j = 1}^{2} α_{j} x_{j} y_{j} x_{1} \end{matrix}$
$\begin{matrix} (4.13) & v_{2} = f (x) - b - \sum_{j = 1}^{2} α_{j} x_{j} y_{j} x_{2} \end{matrix}$

将 $(4.9), (4.12), (4.13)$ 带入 $(4.8)$ 中

\begin{matrix} (4.14) & (x_{1}^{2} + x_{2}^{2} - 2 x_{1} x_{2}) α_{2}^{n e w} = (x_{1}^{2} + x_{2}^{2} - 2 x_{1} x_{2}) α_{2}^{o l d} + y_{2} [y_{2} - y_{1} + f (x_{1}) - f (x_{2})] \end{matrix}

\begin{matrix} (4.15) & α_{2}^{n e w} = α_{2}^{o l d} + \frac{y_{2} (E_{1} - E_{2})}{η} \end{matrix}

其中E表示预测值和真实值的差。 $E_{i} = f (x_{i}) - y_{i}, η = x_{1}^{2} + x_{2}^{2} - 2 x_{1} x_{2}$

根据上篇KKT这个约束：

$0 \leq α \leq C$
$α_{1} y_{1} + α_{2} y_{2} = ζ$

在二维平面上表达两个约束条件：
[机器学习]支持向量机4——SMO算法
最优解一定在方框内&&直线上取得，因此 $L \leq α_{2}^{n e w} \leq H$
当 $y_{1} \neq y_{2}, L = m a x (0, α_{2}^{o l d} - α_{1}^{o l d}) H = m i n (C, C + α_{2}^{o l d} - α_{1}^{o l d})$
当 $y_{1} \neq y_{2}, L = m a x (0, α_{1}^{o l d} + α_{2}^{o l d} - C) H = m i n (C, α_{1}^{o l d} + α_{2}^{o l d})$

经过上述处理，最终 $α_{2}$ :

α_{2} = {\begin{array}{cc} H, & α_{2} > H \\ α_{2}, & L \leq α_{2} \leq H \\ L, & α_{2} < L \end{array}

由于 $ζ = α_{1}^{o l d} y_{1} + α_{2}^{o l d} y_{2} = α_{1}^{n e w} y_{1} + α_{2}^{n e w} y_{2}$ ，两边同时乘 $y_{1}$ 得到：

\begin{matrix} (4.16) & α_{1}^{n e w} = α_{1}^{o l d} + y_{1} y_{2} (α_{2}^{o l d} - α_{2}^{n e w}) \end{matrix}

$α_{i}, α_{j}$ 应该怎么选择？

$(4, 2)$ 式子需要满足KKT(Karush-Kuhn-Tucker)条件，即

{\begin{cases} a_{i} \geq 0 \\ y_{i} (f (x_{i})) - 1 \geq 0 \\ α_{i} (y_{i} (f (x_{i})) - 1) = 0 \end{cases}

第一个变量的选择
第一个变量的选择称为外循环，首先遍历整个样本集，选择违反KKT约束的条件作为

α_{i}

的第一个变量。只要有一个不满足KKT约束，目标函数就会在迭代后变小，直观的说，KKT违背的程度越大，则变量更新后可能导致目标函数降幅越大。于是，SMO先选取违背KKT程度最大的变量。

第二个变量的选择
第二个变量的选择过程称为内循环，假设在外循环中找到第一个变量 $α_{1}$ ，第二个变量的选择希望能使 $α_{2}$ 有较大的变化，在实际中找到一个 $α_{2}$ 使得| $E_{1} - E 2$ |最大。

确定b

在西瓜书中：
注意由于KKT条件的约束，对于任意支持向量 $(x_{s}, y_{s})$ 都有 $y_{s} f (x_{s}) = 1$ ，即：

\begin{matrix} (4.17) & y_{s} (\sum_{i \in S} α_{i} y_{i} x_{i}^{T} x_{s} + b) = 1 \end{matrix}

理论上，可选取任意支持向量机并通过求解

(4.16)

来获得b，但是现实中，用一种更加鲁棒的做法，使用所有支持向量求解的平均值：

b = \frac{1}{| S |} \sum_{i \in S} (1 / y_{s} - \sum_{i \in S} α_{i} y_{i} x_{i}^{T} x_{s})

机器学习实战：
KKT

\begin{matrix} (4.18) & \begin{aligned} α_{i} = 0 & \Rightarrow y_{i} (ω^{T} x_{i} + b) \geq 1 \\ α_{i} = C & \Rightarrow y_{i} (ω^{T} x_{i} + b) \leq 1 \\ 0 < α_{i} < C & \Rightarrow y_{i} (ω^{T} x_{i} + b) = 1 \end{aligned} \end{matrix}

在对每两个

α

进行优化后，要对b的值进行更新：
1. 如果

0 < a_{1}^{n e w} < C \Rightarrow y_{1} (ω^{T} x_{1} + b) = 1 \Rightarrow \sum_{i = 1}^{m} α_{i} y_{i} x_{1} x_{i} + b = y_{1}

\begin{matrix} (4.19) & b_{1}^{n e w} = y_{1} - \sum_{i = 3}^{N} α_{i} y_{i} x_{i} x_{1} - α_{i}^{n e w} y_{1} x_{1} x_{1} - α_{2}^{n e w} y_{2} x_{2} x_{1} \end{matrix}

由于

E_{i} = f (x_{i}) - y_{i}

，公式

y_{i} - \sum_{i = 3}^{N} α_{i} y_{i} x_{i} x_{1}

可以替换为：

y_{i} - \sum_{i = 3}^{N} α_{i} y_{i} x_{i} x_{1} = - E_{1} + α_{1}^{o l d} y_{1} x_{1} x_{1} + α_{2}^{o l d} y_{2} x_{1} x_{1} + b^{o l d}

可以得到

b_{1}^{n e w} = - E_{1} - y_{1} x_{1} x_{1} (α_{1}^{n e w} - α_{1}^{o l d}) - y_{2} x_{2} x_{1} (α_{2}^{n e w} - α_{2}^{o l d}) + b^{o l d}

2.如果

0 < α_{2}^{n e w} < C

,则

b_{2}^{n e w} = - E_{2} - y_{1} x_{1} x_{2} (α_{1}^{n e w} - α_{1}^{o l d}) - y_{2} x_{2} x_{2} (α_{2}^{n e w} - α_{2}^{o l d}) + b^{o l d}

3.如果同时满足

0 < α_{i}^{n e w} < C

,则

b_{1}^{n e w} = b_{2}^{n e w}

4.如果同时不满足，取两个值中点。

SMO代码，请戳

参考资料

https://blog.****.net/luoshixian099/article/details/51227754
机器学习（周志华）

[机器学习]支持向量机4——SMO算法

支持向量机4——SMO算法

αi,αjαi,αj应该怎么选择？

确定b

参考资料

相关推荐

$α_{i}, α_{j}$ 应该怎么选择？