【机器学习】支持向量机(三)----拉格朗日对偶性与对偶问题

上一篇，讲的是硬间隔最大化和软间隔最大化的原始学习问题，回顾一下。
1.硬间隔最大化(线性可分支持向量机)学习算法
原始问题：
　　　 $min_{ω^{T}, b} \frac{1}{2} | | ω | |^{2}$
s.t.　　 $y_{i} (ω^{T} x_{i} + b) - 1 \geq 0$

2.软间隔最大化(线性支持向量机)学习算法
原始问题：
　　　 $min_{ω^{T}, b, ξ} \frac{1}{2} | | ω | |^{2} + C \sum_{n = 1}^{N} ξ_{i}$
s.t.　　 $y_{i} (ω^{T} x_{i} + b) \geq 1 - ξ_{i}$ 　　(i=1,2,..,N)
s.t.　　 $ξ_{i} \geq 0$ 　　　　　　　　　(i=1,2,..,N)

由于约束项的存在，对于这些原始问题的求解变得复杂起来，回忆起高中那时有一类不等式题，求解的思路就是用的拉格朗日乘数法，将那些约束项和待求项合在一起组成一个式子来求解，这个就有点像我们要用的方法。
因此，在这里，我们可以利用拉格朗日对偶性，通过求解对偶问题得到原始问题的最优解，这就是支持向量机的对偶算法。其优点有二：一、对偶问题往往更容易求解；二、自然地引入核函数，进而推广到非线性分类问题。

【原始问题】

首先我们来看看原始问题的形式(来自统计学习方法附录C)
假设 $f (x)$ , $c_{i} (x)$ , $h_{j} (x)$ 是定义在 $R^{n}$ 上的连续可微函数.考虑约束最优化问题：
　　　 $min_{x \in R^{n}} f (x)$
s.t.　　 $c_{i} (x) \leq 0$ 　　　(i=1,2,…,k)
s.t.　　 $h_{j} (x) = 0$ 　　　(j=1,2,…,s)
这个问题就被称为原始最优化问题或原始问题

【拉格朗日乘数】

引入拉格朗日乘数 $L (x, α, β) = f (x) + \sum_{i = 1}^{k} α_{i} c_{i} (x) + \sum_{j = 1}^{s} β_{j} h_{j} (x)$
这里 $α_{i}$ , $β_{j}$ 是拉格朗日乘子， $α_{i} \geq 0$
又到了重头戏时间，上图：
【机器学习】支持向量机(三)----拉格朗日对偶性与对偶问题
为什么要这要设计呢，原始问题的约束项在这个式子中如何体现呢？那么我们就来看看 $θ_{p} (x) = max_{α, β : α_{i} \geq 0} L (x, α, β) = f (x) + \sum_{i = 1}^{k} α_{i} c_{i} (x) + \sum_{j = 1}^{s} β_{j} h_{j} (x)$ 这个式子是否能满足原始问题的那两个约束条件吧。
接着上图：
【机器学习】支持向量机(三)----拉格朗日对偶性与对偶问题
诶嘿，真是一个美妙的变化。不过为什么

$θ_{p} (x) = {\begin{cases} f (x), & x满足原始条件约束 \\ + \infty, & 其他 \end{cases}$
其实当x满足原始条件约束时(即 $c_{i} (x) \leq 0$ ， $h_{j} (x) = 0$ )
$θ_{p} (x)$ 就会变成 $max_{α, β : α_{i} \geq 0} L (x, α, β) = f (x) + 负数乘上 α_{i}$ ，为了使 $L (x, α, β)$ 最大，由于 $α_{i} \geq 0$ ，只有 $α_{i}$ 取0的时候才能使其最大，这样就得出 $θ_{p} (x) = max_{α, β : α_{i} \geq 0} L (x, α, β) = f (x)$ 了
这样，原本三行式子的原始问题就被转化成了 $min_{x} θ_{p} (x) = min_{x} max_{α, β : α_{i} \geq 0} L (x, α, β)$
被称为广义拉格朗日函数的极小极大问题

【对偶问题】

定义 $θ_{D} (α, β) = min_{x} L (x, α, β)$ ，再考虑极大化 $θ_{D} (α, β)$
即 $max_{α, β : α_{i} \geq 0} θ_{D} (α, β) = max_{α, β : α_{i} \geq 0} min_{x} L (x, α, β)$
这个被称为广义拉格朗日函数的极大极小问题，我们给它换个形式，把 $α_{i} \geq 0$ 给提出来做约束项，就可以写成这样：
　　　　 $max_{α, β} θ_{D} (α, β) = max_{α, β} min_{x} L (x, α, β)$
s.t.　　　 $α_{i} \geq 0$
这个就被称为原始问题的对偶问题

定理1

定义原始问题最优解为： $p^{*} = min_{x} θ_{p} (x)$
定义对偶问题最优解为： $d^{*} = max_{α, β : α \geq 0} θ_{D} (α, β)$
若原始问题和对偶问题都有最优解，则有：
$d^{*} = max_{α, β : α_{i} \geq 0} min_{x} L (x, α, β) \leq min_{x} max_{α, β : α_{i} \geq 0} L (x, α, β) = p^{*}$

推论

设 $x^{*}$ 是原始问题可行解， $α^{*}$ , $β^{*}$ 是对偶问题可行解，并且 $d^{*} = p^{*}$ ，则 $x^{*}$ 是原始问题最优解， $α^{*}$ , $β^{*}$ 是对偶问题最优解

定理2

1、假设函数 $f (x)$ 和 $c_{i} (x)$ 是凸函数， $h_{j} (x)$ 是仿射函数(即最高次数为1的多项式函数，若常数项等于0，就是线性函数)
2、假设不等式约束 $c_{i} (x)$ 是严格可行的(即存在 $x$ ,对所有 $i$ 有 $c_{i} (x) < 0$ )
以上两个假设同时满足的情况下，则存在 $x^{*}$ , $α^{*}$ , $β^{*}$ ，使 $x^{*}$ 是原始问题的解， $α^{*}$ , $β^{*}$ 是对偶问题的解，且 $d^{*} = p^{*} = L (x^{*}, α^{*}, β^{*})$

定理3

对于定理2来说，存在 $x^{*}$ , $α^{*}$ , $β^{*}$ ，使 $x^{*}$ 是原始问题的解， $α^{*}$ , $β^{*}$ 是对偶问题的解的充分必要条件是 $x^{*}$ , $α^{*}$ , $β^{*}$ 满足下面的KKT条件：

【KKT条件】

　　　　 $\nabla_{x} L (x^{*}, α^{*}, β^{*}) = 0$
　　　　 $α_{i}^{*} c_{i} (x^{*}) = 0$ 　　　i=1,2,…k
　　　　 $c_{i} (x^{*}) \leq 0$ 　　　　i=1,2,…k
　　　　 $α_{i}^{*} \geq 0$ 　　　　　　i=1,2,…k
　　　　 $h_{j} (x^{*}) = 0$ 　　　　j=1,2,…s
特别指出， $α_{i}^{*} \geq 0$ 被称为KKT对偶互补条件，由此条件可知：若 $α_{i}^{*} > 0$ ，则 $c_{i} (x) = 0$

【线性可分支持向量机的对偶问题】

有了上面的基础，我们就可以对线性可分支持向量机的原始问题进行转化啦~
再次写一下原始问题：
　　　 $min_{ω^{T}, b} \frac{1}{2} | | ω | |^{2}$
s.t.　　 $y_{i} (ω^{T} x_{i} + b) - 1 \geq 0$
引入拉格朗日乘子 $α_{i} \geq 0$ ，得 $L (ω^{T}, b, α) = \frac{1}{2} | | ω | |^{2} - \sum_{i = 1}^{n} α_{i} y_{i} (ω^{T} x_{i} + b) + \sum_{i = 1}^{n} α_{i}$

对偶问题为：
$max_{α} min_{ω^{T}, b} L (ω^{T}, b, α)$
为了求得对偶问题的解，需先求 $L (ω^{T}, b, α)$ 对 $ω^{T}$ ， $b$ 的极小，再求对 $α$ 的极大。

(1)求 $L (ω^{T}, b, α)$ 对 $ω^{T}$ ， $b$ 的极小：

　　　　 $\nabla_{ω} L (ω^{T}, b, α) = ω - \sum_{i = 1}^{n} α_{i} y_{i} x_{i} = 0$
　　　　 $\nabla_{b} L (ω^{T}, b, α) = - \sum_{i = 1}^{n} α_{i} y_{i} = 0$

　　　　求得： $ω = \sum_{i = 1}^{n} α_{i} y_{i} x_{i}$
　　　　　　　 $\sum_{i = 1}^{n} α_{i} y_{i} = 0$ 　
　　　　带入 $min_{ω^{T}, b} L (ω^{T}, b, α)$
得： $min_{ω^{T}, b} L (ω^{T}, b, α) = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}$
　　

(2)求 $max_{α} min_{ω^{T}, b} L (ω^{T}, b, α)$

(3)转换为等价问题

　　　 $min_{α} \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} - \sum_{i = 1}^{n} α_{i}$
s.t.　　 $\sum_{i = 1}^{n} α_{i} y_{i} = 0$ 　　( $α_{i} \geq 0, i = 1, 2.., n$ )

(4)解得最优解 $α^{} = (α_{1}^{}, α_{2}^{}, . . ., α_{n}^{})^{T}$

(5)计算 $ω^{}$ , $b^{}$

　　　　 $ω^{*} = \sum_{i = 1}^{n} α_{i}^{*} y_{i} x_{i} = 0$
　　　　 $b^{*} = y_{j} - \sum_{i = 1}^{n} α_{i}^{*} y_{i} x_{i}^{T} x_{j} = 0$

(6)求得超平面： $ω^{} x + b^{} = 0$

求得分类决策函数： $f (x) = s i g n (ω^{} x + b^{})$

【线性支持向量机的对偶问题】

对线性支持向量机的原始问题同样进行转化
原始问题：
　　　 $min_{ω^{T}, b, ξ} \frac{1}{2} | | ω | |^{2} + C \sum_{n = 1}^{N} ξ_{i}$
s.t.　　 $y_{i} (ω^{T} x_{i} + b) \geq 1 - ξ_{i}$ 　　(i=1,2,..,N)
s.t.　　 $ξ_{i} \geq 0$ 　　　　　　　　　(i=1,2,..,N)

入两个拉格朗日乘子 $α_{i} \geq 0$ 和 $μ_{i} \geq 0$ ，得 $L (ω^{T}, b, ξ, α) = \frac{1}{2} | | ω | |^{2} + C \sum_{n = 1}^{N} ξ_{i} - \sum_{i = 1}^{n} (α_{i} y_{i} (ω^{T} x_{i} + b) - 1 + ξ_{i}) - \sum_{i = 1}^{n} μ_{i} ξ_{i}$

对偶问题为：
$max_{α} min_{ω^{T}, b, ξ} L (ω^{T}, b, ξ, α)$
为了求得对偶问题的解，需先求 $L (ω^{T}, b, ξ, α)$ 对 $ω^{T}$ ， $b$ ， $ξ$ 的极小，再求对 $α$ 的极大。

(1)求 $L (ω^{T}, b, ξ, α)$ 对 $ω^{T}$ ， $b$ ， $ξ$ 的极小：

　　　　 $\nabla_{ω} L (ω^{T}, b, ξ, α) = ω - \sum_{i = 1}^{n} α_{i} y_{i} x_{i} = 0$
　　　　 $\nabla_{b} L (ω^{T}, b, ξ, α) = - \sum_{i = 1}^{n} α_{i} y_{i} = 0$
　　　　 $\nabla_{ξ} L (ω^{T}, b, ξ, α) = C - α_{i} - μ_{i} = 0$
　　　　求得： $ω = \sum_{i = 1}^{n} α_{i} y_{i} x_{i}$
　　　　　　　 $\sum_{i = 1}^{n} α_{i} y_{i} = 0$
　　　　　　　 $C - α_{i} - μ_{i} = 0$ 　
　　　　带入 $min_{ω^{T}, b, ξ} L (ω^{T}, b, ξ, α)$
得： $min_{ω^{T}, b, ξ} L (ω^{T}, b, ξ, α) = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}$
　　

(2)求 $max_{α} min_{ω^{T}, b, ξ} L (ω^{T}, b, ξ, α)$

即求：
　　　 $max_{α} \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}$
s.t.　　 $\sum_{i = 1}^{n} α_{i} y_{i} = 0$ 　　( $α_{i} \geq 0, i = 1, 2.., n$ )
s.t.　　 $C - α_{i} - μ_{i} = 0$ 　　( $i = 1, 2.., n$ )
s.t.　　 $α_{i} \geq 0$ 　　( $i = 1, 2.., n$ )
s.t.　　 $μ_{i} \geq 0$ 　　( $i = 1, 2.., n$ )
等价于：
　　　 $max_{α} \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}$
s.t.　　 $\sum_{i = 1}^{n} α_{i} y_{i} = 0$ 　　( $α_{i} \geq 0, i = 1, 2.., n$ )
s.t.　　 $0 \leq α_{i} \leq C$ 　　( $i = 1, 2.., n$ )

(3)转换为等价问题

(4)解得最优解 $α^{} = (α_{1}^{}, α_{2}^{}, . . ., α_{n}^{})^{T}$

(5)计算 $ω^{}$ , $b^{}$

　　　　 $ω^{*} = \sum_{i = 1}^{n} α_{i}^{*} y_{i} x_{i} = 0$
　　　　 $b^{*} = y_{j} - \sum_{i = 1}^{n} α_{i}^{*} y_{i} x_{i}^{T} x_{j} = 0$

(6)求得超平面： $ω^{} x + b^{} = 0$

求得分类决策函数： $f (x) = s i g n (ω^{} x + b^{})$

参考文献：《统计学习方法》、《机器学习》

【机器学习】支持向量机(三)----拉格朗日对偶性与对偶问题

【原始问题】

【拉格朗日乘数】

【对偶问题】

定理1

推论

定理2

定理3

【KKT条件】

【线性可分支持向量机的对偶问题】

(1)求L(ωT,b,α)L(ωT,b,α)对ωTωT，bb的极小：

(2)求maxαminωT,bL(ωT,b,α)maxαminωT,bL(ωT,b,α)

(3)转换为等价问题

(4)解得最优解α∗=(α∗1,α∗2,...,α∗n)Tα∗=(α1∗,α2∗,...,αn∗)T

(5)计算ω∗ω∗,b∗b∗

(6)求得超平面：ω∗x+b∗=0ω∗x+b∗=0

求得分类决策函数：f(x)=sign(ω∗x+b∗)f(x)=sign(ω∗x+b∗)

【线性支持向量机的对偶问题】

(1)求L(ωT,b,ξ,α)L(ωT,b,ξ,α)对ωTωT，bb，ξξ的极小：

(2)求maxαminωT,b,ξL(ωT,b,ξ,α)maxαminωT,b,ξL(ωT,b,ξ,α)

(3)转换为等价问题

(4)解得最优解α∗=(α∗1,α∗2,...,α∗n)Tα∗=(α1∗,α2∗,...,αn∗)T

(5)计算ω∗ω∗,b∗b∗

(6)求得超平面：ω∗x+b∗=0ω∗x+b∗=0

求得分类决策函数：f(x)=sign(ω∗x+b∗)f(x)=sign(ω∗x+b∗)

相关推荐

(1)求 $L (ω^{T}, b, α)$ 对 $ω^{T}$ ， $b$ 的极小：

(2)求 $max_{α} min_{ω^{T}, b} L (ω^{T}, b, α)$

(4)解得最优解 $α^{} = (α_{1}^{}, α_{2}^{}, . . ., α_{n}^{})^{T}$

(5)计算 $ω^{}$ , $b^{}$

(6)求得超平面： $ω^{} x + b^{} = 0$

求得分类决策函数： $f (x) = s i g n (ω^{} x + b^{})$

(1)求 $L (ω^{T}, b, ξ, α)$ 对 $ω^{T}$ ， $b$ ， $ξ$ 的极小：

(2)求 $max_{α} min_{ω^{T}, b, ξ} L (ω^{T}, b, ξ, α)$

(4)解得最优解 $α^{} = (α_{1}^{}, α_{2}^{}, . . ., α_{n}^{})^{T}$

(5)计算 $ω^{}$ , $b^{}$

(6)求得超平面： $ω^{} x + b^{} = 0$

求得分类决策函数： $f (x) = s i g n (ω^{} x + b^{})$