感知机是SVM的基础，详细介绍请戳http://blog.csdn.net/akirameiao/article/details/79436859

一、原理

1. 线性可分支持向量机

问题的输入输出
X = { $x_{1}, x_{2}, . . ., x_{n}$ }
Y = {+1, -1}

模型：
感知机的目的是找到一个可以正确分类数据的超平面S： $ω \cdot x + b = 0$ , 得到感知机模型 $f (x) = s i g n (ω \cdot x + b)$ ，其中 $ω \cdot x + b > 0$ 为正类， $ω \cdot x + b < 0$ 为负类。SVM和感知机最大的差别就是SVM寻找的间隔最大的超平面，所谓间隔，可以理解为实例点到超平面最小的距离，所以SVM找的是把数据正确分隔的”最开”的超平面。

间隔
函数间隔：对于给定的训练数据集T和超平面( $ω, b$ )，定义超平面关于样本点( $x_{i}, y_{i}$ )的函数间隔为 ${\hat{γ}}_{i} = y_{i} (ω \cdot x_{i} + b)$
几何间隔：对于给定的训练数据集T和超平面( $ω, b$ )，定义超平面关于样本点( $x_{i}, y_{i}$ )的几何间隔为 $γ_{i} = \frac{1}{| | ω | |} y_{i} (ω \cdot x_{i} + b) = \frac{{\hat{γ}}_{i}}{| | ω | |}$

所以我们可以建立模型：

输入: $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{i}, y_{i})}$
输出: 分离超平面： $ω \cdot x + b = 0$ 决策函数： $f (x) = s i g n (ω \cdot x + b)$

策略：
接下来的问题就是找到间隔最大的超平面，记超平面关于实例点的的几何间隔【 $\frac{1}{| | ω | |} y_{i} (ω \cdot x_{i} + b) \geq γ_{i}$ 】, 定义超平面关于所有实例点的几何间隔为【 $γ = m a x γ_{i}$ 】, 则问题就可以写成【 $m a x_{ω, b} γ$ ， $s . t . y_{i} (ω \cdot x_{i} + b) \geq γ_{i}$ 】
有几何间隔和函数间隔的关系，问题可以改写为【 $m a x \frac{\hat{γ}}{| | ω | |}$ 】【 $s . t . y_{i} (ω \cdot x_{i} + b) \geq \hat{γ}, i = 1, 2, \dots, N$ 】
由于同时成比例的改变 $ω$ 和 b ，不会影响超平面的位置，也不会影响不等式约束和目标函数的优化，可以令【 $\hat{γ} = 1$ 】,为了求解的方便，把优化目标改成： $m i n \frac{1}{2} | | ω | |^{2}$ ，约束条件改成 $y_{i} (ω \cdot x_{i} + b) - 1 \geq 0, i = 1, 2, \dots, N$

算法:

原始算法：

输入：线性可分数据集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{n}, y_{n})}$ ，其中， $x_{i} \in R^{n}, y_{i} \in {+ 1, - 1}, i = 1, 2, \dots, N$
输出：最大间隔分离超平面： $ω^{*} \cdot x + b^{*} = 0$ 分类决策函数： $f (x) = s i g n (ω^{*} \cdot x + b^{*})$

过程： $(1) m i n_{ω, b} \frac{1}{2} | | ω | |^{2}$ , $s . t .$ $y_{i} (ω \cdot x_{i} + b) - 1 \geq 0, i = 1, 2, \dots, N$ ，求的最优解 $ω^{*}, b^{*}$

(2)得到分离超平面 $w^{*} \cdot x + b = 0$ ，决策函数 $f (x) = s i g n (ω^{*} \cdot x + b^{*})$

对偶算法：

首先构建原始问题的拉格朗日函数 $L (ω, b, α) = \frac{1}{2} | | ω | |^{2} + \sum_{i = 1}^{N} α_{i} (1 - y_{i} (ω \cdot x_{i} + b))$ 由拉格朗日对偶性，原始问题的对偶问题的极大极小问题 $max_{α} m i n_{ω, b} L (ω, b, α)$ 接下来是求解过程

a. 对 $ω, b$ 求偏导数，并令其等于0，【 $\nabla_{ω} L (ω, b, α) = ω - \sum_{i = 1}^{N} α_{i} y_{i} x_{i} = 0$ 】, 【 $\nabla_{b} L (ω, b, α) = \sum_{i = 1}^{N} α_{i} y_{i}$ 】，得到【 $ω = \sum_{i = 1}^{N} α_{i} y_{i} x_{i}, \sum_{i = 1}^{N} α_{i} y_{i} = 0$ 】

b. 将a中得到的结果代入拉格朗日函数，化简得到
【 $m i n_{ω, b} L (ω, b, α) = - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}$ 】

c. 接下来求【 $m a x_{α} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}$ ,s.t $\sum_{i = 1}^{N} α_{i} y_{i} = 0$ , $α_{i} \geq 0$ 】, 【 $i = 1, 2, \dots, N$ 】

d. 转化为求【 $m i n_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i}$ , s.t $\sum_{i = 1}^{N} α_{i} y_{i} = 0$ , $α_{i} \geq 0 ， i = 1, 2, \dots, N$ 】

拉格朗日函数的KKT条件
$\nabla_{ω} L (ω, b, α) = 0$
$α_{i} \geq 0$
$y_{i} f (x_{i}) - 1 \geq 0$
$α_{i} (y_{i} f (x_{i}) - 1) = 0$

e. 由KKT条件， $ω^{*} = \sum_{i = 1}^{N} α^{*} y_{i} x_{i}$ , 由于 $ω \neq 0$ 可知存在下标 j，使得 $α_{j}^{*} > 0$ , 那么 $y_{i} (ω \cdot x_{i} + b) = 0,$ 将 $ω$ 代入，得到 $b^{*} = y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i} \cdot x_{j})$
输入：线性可分数据集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{n}, y_{n})}$ ，其中， $x_{i} \in R^{n}, y_{i} \in {+ 1, - 1}, i = 1, 2, \dots, N$

f.计算出 $α$ 之后，可以得到 $ω, b$ ,分离超平面 $\sum_{i = 1}^{N} α_{i}^{*} y_{i} (x \cdot x_{i}) + b^{*}$ , 分类决策 $f (x) = s i g n (\sum_{i = 1}^{N} α_{i}^{*} y_{i} (x \cdot x_{i}) + b^{*})$

2. 线性支持向量机

如果数据中大部分点是线性可分的，但是存在少数点是线性不可分，这种情况下，就可以使用软间隔支持向量机，每个实例支付一个代价 $ξ_{i}$ ，将约束条件写成 $y_{i} (ω \cdot x_{i} + b) \geq 1 - ξ_{i}$ , 将优化目标函数写成 $\frac{1}{2} | | ω | |^{2} + C \sum_{i}^{N} ξ_{i}$ , C是调和两者的参数，这样的叫做软间隔支持向量机

策略:

$m i n \frac{1}{2} | | ω | |^{2} + C \sum_{i}^{N} ξ_{i}$
$s . t . y_{i} (ω \cdot x_{i} + b) \geq 1 - ξ_{i}$
$ξ \geq 0$

算法：

$a . L (ω, b, ξ, α, μ) = \frac{1}{2} | | ω | |^{2} + C \sum_{i}^{N} ξ_{i} + \sum_{i}^{N} α_{i} [1 - ξ_{i} - y_{i} (ω \cdot x_{i} + b)] + \sum_{i}^{N} (- μ_{i} ξ_{i})$

展开后得到
$L (ω, b, ξ, α, μ) = \frac{1}{2} | | ω | |^{2} + C \sum_{i}^{N} ξ_{i} + \sum_{i}^{N} α_{i} - \sum_{i}^{N} α_{i} ξ_{i} - \sum_{i}^{N} α_{i} y_{i} ω x_{i} - \sum_{i}^{N} α_{i} y_{i} b - \sum_{i}^{N} μ_{i} ξ_{i}$

b.原始问题的对偶问题 $ω, b, ξ$ 求偏导数，得到
$\nabla_{ω} L = ω - \sum_{i}^{N} α_{i} y_{i} x_{i}$
$\nabla_{b} L = - \sum_{i}^{N} α_{i} y_{i}$
$\nabla_{ξ^{i}} L = C - α_{i} - μ_{i}$

令偏导数为0，得到
$ω = \sum_{i}^{N} α_{i} y_{i} x_{i}$
$\sum_{i}^{N} α_{i} y_{i} = 0$
$C - α_{i} - μ_{i} = 0$

c.将b中的结果代入拉格朗日函数，得到对偶问题
【 $m i n_{ω, b} L (ω, b, α) = - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}$ 】

d. 接下来求
$m a x_{α} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i}$ ,s.t $\sum_{i = 1}^{N} α_{i} y_{i} = 0$ , $α_{i} \geq 0$ 】, 【 $i = 1, 2, \dots, N$ 】

e. 转化为求
$m i n_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i}$ ,
s.t $\sum_{i = 1}^{N} α_{i} y_{i} = 0$ ,
$α_{i} \geq 0 ， i = 1, 2, \dots, N$
$μ_{i} \geq 0$
$α_{i} (y_{i} (ω \cdot x_{i} + b) - 1 + ξ_{i}) = 0$

3. 非线性支持向量机

当数据在当前输入空间线性不可分时，可以使用映射函数， $ϕ (x)$ 将样本映射到特征空间，使它们变得线性可分

核函数：
$K (x_{i}, x_{j}) = ϕ (x_{i}) \cdot ϕ (x_{j})$

优化目标可以写成
分离超平面 $\sum_{i = 1}^{N} α_{i}^{*} y_{i} K （ x \cdot x_{i}) + b^{*}$ , 分类决策 $f (x) = s i g n (\sum_{i = 1}^{N} α_{i}^{*} y_{i} K (x \cdot x_{i}) + b^{*})$

核函数一般的由高斯核函数、

SMO算法
1.选出两个优化变量 $α_{i}, α_{j}$ 之后，通过代数方法求解二次规划问题
2.选出一个变量 $α_{i}$ ,如何选择第二个变量 $α_{j}$

二、白板推导

带你搞懂支持向量机SVM算法原理