线性SVM

SVM的优化目标是最大化分类边距，边距是指两个分离的超平面(决策边界)间的距离，位于分类边距上的数据点成为支持向量。图中蓝线所指的就是支持向量。
支持向量机(Support Vector Machine, SVM)
计算边距的大小：

设分类的超平面为：
$g(\bm{x})=\bm{w}^{T}\bm{x}+b=0$
支撑超平面为 $g(\bm{x})=\pm c$ ,令 $c=1$ ：
$\left\{\begin{matrix} \bm{w}^{T}\bm{x}_{i}+b\geqslant1,y_{i}=+1\\ \bm{w}^{T}\bm{x}_{i}+b\leqslant-1,y_{i}=-1 \end{matrix}\right.$
虽然在这里假设 $c=1$ ,所求得的 $(\bm{w},b)$ 若能正确分类，总存在缩放变换： $\bm{w} \rightarrow \zeta\bm{w}，\bm{b} \rightarrow \zeta\bm{b}$ 使得上式成立。
由样本到超平面的距离公式：
$d=\frac{|g(\bm{x})|}{||\bm{w}||}$
分类间隔为：
$\frac{|+1|}{||\bm{w}||}+\frac{|-1|}{||\bm{w}||}=\frac{2}{||\bm{w}||}$
SVM的学习过程归结为寻找合适的 ${\rm{w}}$ 和 $b$ ：

所有的训练数据都在正确的分类区域
$y_{i}(\left \langle {\rm{w}},{\rm{x}}_{i} \right \rangle+b) \geq 1，其中y_{i} \in \{-1, +1\}$
最大化边距： $\max \frac{2}{\parallel {\bm{w}}\parallel} \Leftrightarrow\min \frac{1}{2}{\parallel {\bm{w}}\parallel}^{2}$
目标函数可以被整理成为如下的格式：
$\min_{\bm{w},b}\frac{1}{2}||\mathbf{\bm{w}}||^{2} \\ s.t. \ y_{i}(\bm{{w}^{T}x_{i}}+b)\geq1,i=1,2,...,n$
此时可以使用在约束 $g(\bm{x})\leq0$ 下最小化 $f(\bm{x})$ 的拉格朗日乘数法，此时需要转化为如下的KKT约束条件：
$\left\{\begin{matrix} g(\bm{x})\leqslant 0\\ \lambda\geqslant0\\ \lambda g(\bm{x})=0 \end{matrix}\right.$
每条约束添加拉格朗日乘子 $\alpha_{i}\geqslant0$ ,该问题的拉格朗日函数可写为： $L(\bm{w},b,\bm{\alpha})=\frac{1}{2}||\mathbf{\bm{w}}||^{2}+\sum_{i=1}^{n}\alpha_{i}(1-y_{i}(\bm{{w}^{T}x_{i}}+b))$
原始问题： $\min_{\bm{w},b}\theta_{p}(\bm{w},b)=\min_{\bm{w},b} \max_{\alpha_{i}\geqslant 0}L(\bm{w},b,\alpha)=p^{*}$
对偶问题： $\max_{\alpha}\theta_{d}(\alpha)=\max_{\alpha_{i}\geqslant 0}\min_{\bm{w},b}L(\bm{w},b,\alpha)=d^{*}$
从以上可以看出，原始问题先固定 $\alpha$ 优化 $\bm{w},b$ ，求出 $\bm{w},b$ 再优化 $\alpha$ 。对偶问题先固定 $\bm{w},b$ 优化 $\alpha$ ，求出 $\alpha$ 后在优化 $\bm{w},b$ 。采用其对偶问题，先固定先固定 $\bm{w},b$ ：
$\frac{\partial{L(\bm{w},b,\bm{\alpha})}}{\partial{\bm{w}}}=0\Rightarrow\bm{w}=\sum_{i=1}^{n}\alpha_{i}y_{i}\bm{x}_{i} \\ \frac{\partial{L(\bm{w},b,\bm{\alpha})}}{\partial{b}}=0\Rightarrow 0=\sum_{i=1}^{n}\alpha_{i}y_{i}$
将以上两式子带入 $L(\bm{w},b,\bm{\alpha})$ 可得：
$\frac{1}{2}||\bm{x}||^{2}=\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}^{T}x_{j}\\ -\sum_{i=1}^{n}\alpha_{i}(1-y_{i}(\bm{{w}^{T}x_{i}}+b))=-\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}^{T}x_{j}+\sum_{i=1}^{n}\alpha_{i}$
得到 $\theta_{d}(\alpha)=\sum_{i=1}^{n}\alpha_{i}-\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}^{T}x_{j}$
此时需要求解如下关于 $\alpha$ 目标函数：
$\max_{\alpha}\sum_{i=1}^{n}\alpha_{i}-\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}^{T}x_{j}\\ s.t. \ \sum_{i=1}^{n}\alpha_{i}y_{i}=0, \\ \alpha_{i}\geqslant0,i=1,2,...,n$
解出 $\alpha$ 后，求出 $\bm{w},b$ :
$\bm{w}=\sum_{i=1}^{n}\alpha_{i}y_{i}\bm{x}_{i} \\ y_{j}(\bm{w}^{T}\bm{x}_{j}+b)-1=0 \{j|\alpha_{j}>0\}\\ \Rightarrow b=y_{j}-\sum_{i=1}^{n}\alpha_{i}y_{i}\bm{x}_{i}^{T}\bm{x}_{j}$
即可得到模型：
$f(\bm{x})=\bm{w}^{T}\bm{x}+b=\sum_{i=1}^{n}\alpha_{i}y_{i}\bm{x}_{i}^{T}\bm{x}+b$
上述过程需满足KKT条件：
$\left\{\begin{matrix} y_{i}f(\bm{x}_{i})-1\geqslant 0\\ \alpha_{i} \geqslant 0\\ \alpha_{i}(y_{i}f(\bm{x}_{i})-1)=0 \end{matrix}\right.$
从KKT条件中可以看出，对于 $\forall (\bm{x}_{i},y_{i})$ ,必有 $\alpha_{i}=0$ 或 $y_{i}f(\bm{x}_{i})=1$ 。 $\alpha_{i}=0$ 时样本对 $f(\bm{x})$ 没有影响，当 $\alpha_{i}>0$ 时，必有 $y_{i}f(\bm{x}_{i})=1$ 。所以最终的模型只和支持向量有关。

非线性SVM：核函数法

可将样本映射到高维空间中，使得在低维空间线性不可分的样本在高维空间线性可分。
支持向量机(Support Vector Machine, SVM)
设 $\phi(\bm{x})$ 为 $\bm{x}$ 映射后的特征向量，在特征空间中划分超平面的模型为 $f(\bm{x})=\bm{w}^{T}\phi(\bm{x})+b$
此时的对偶问题是：
$\max_{\alpha}\sum_{i=1}^{n}\alpha_{i}-\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}\phi(x_{i})^{T}\phi(x_{j})\\ s.t. \ \sum_{i=1}^{n}\alpha_{i}y_{i}=0, \\ \alpha_{i}\geqslant0,i=1,2,...,n$
由于特征空间可能维度很高，甚至是无穷维，内积运算 $\phi(x_{i})^{T}\phi(x_{j})$ 比较困难。此时可以设想一个核函数：
$\kappa(\bm{x_{i},x_{j}})=\phi(\bm{x_{i}})^{T}\phi(\bm{x}_{j})$
有了核函数，就无需再求高维甚至无穷维特征空间的内积，目标函数可写为：
$\max_{\alpha}\sum_{i=1}^{n}\alpha_{i}-\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}\kappa(\bm{x_{i},x_{j}})\\ s.t. \ \sum_{i=1}^{n}\alpha_{i}y_{i}=0, \\ \alpha_{i}\geqslant0,i=1,2,...,n$
解出 $\alpha$ 后，求出 $\bm{w},b$ :
$\bm{w}=\sum_{i=1}^{n}\alpha_{i}y_{i}\bm{x}_{i} \\ y_{i}(\bm{w}^{T}\bm{x}_{i}+b)-1=0 \{i|\alpha_{i}>0\}\\ \Rightarrow b=y_{j}-\sum_{i=1}^{n}\alpha_{i}y_{i}\kappa(x_{i},x_{j})$
$f(\bm{x})=\bm{w}^{T}\bm{x}+b=\sum_{i=1}^{n}\alpha_{i}y_{i}\phi(\bm{x}_{i})^{T}\phi(\bm{x})+b=\sum_{i=1}^{n}\alpha_{i}y_{i}\kappa(\bm{x_{i},x})+b$
核函数：
若已知合适的映射 $\phi(\cdot )$ ，则可写出核函数 $\kappa(\cdot )$ 。在现实任务中我们通常不知道 $\phi(\cdot )$ 的形式，我们有以下定理可以选择核函数。
$\mathcal{X}$ 为输入空间， $\kappa(\cdot,\cdot )$ 是定义在 $\mathcal{X}\times \mathcal{X}$ 的对称函数，则 $\kappa$ 是核函数当且仅当对于任意数据 $D=\{\bm{x}_{1},\bm{x}_{2},...,\bm{x}_{m}\}$ ,核矩阵 $\mathbf{K}$ 总是半正定的。
支持向量机(Support Vector Machine, SVM)
矩阵正定的定义： 对于实对称矩阵 $A$ ,如果对于任意的非0向量 $\bm{x}\in R^{n}\neq 0$ ，有 $\bm{x}^{T}A\bm{x}>0$ ,则矩阵 $A$ 是正定的。其充要条件是矩阵 $A$ 对应的特征值全是正数。
上述的定理表明，对于任意一个对称函数所对应的核矩阵半正定，就能作为核函数使用，同时也隐式对应映射函数 $\phi$ 。
我们希望样本在特征空间里线性可分，特征空间的好坏对SVM的性能很重要。在不知道特征映射的情况下，我们并不知道什么样的核函数是最适合的，核函数隐式的定义了特征空间。于是核函数的选择成为SVM的最大变数。若核函数选择不合适，样本会映射到一个不合适的空间，进而导致性能不佳。
常用的核函数：
支持向量机(Support Vector Machine, SVM)
新的核函数也可以通过组合核函数得到：

若 $\kappa_{1}$ 和 $\kappa_{2}$ 为核函数，对于任意正数 $\gamma_{1}$ 和 $\gamma_{2}$ ，其线性组合 $\gamma_{1}\kappa_{1}+\gamma_{2}\kappa_{2}$ 也是核函数。
若 $\kappa_{1}$ 和 $\kappa_{2}$ 为核函数，则核函数的直积（笛卡尔积） $\kappa_{1}(\bm{x,z})\kappa_{2}(\bm{x,z})$ 也是核函数。
若 $\kappa_{1}$ 为核函数，则对于任意函数 $g(\bm{x})$ $ $\kappa(\bm{x,z})=g(\bm{x})\kappa_{1}(\bm{x,z})g(\bm{z})$

软边距的SVM

如果不存在一个分类面使得训练数据能够被完美分开，或者为了防止由于过拟合而造成的线性可分，那么边距不再是硬性限制(软边距)，此时允许一些样本分类错误。这些样本不必满足：
$y_{i}(\bm{w}^{T}\bm{x}_{i}+b)\geq 1$
此时需要在优化目标中加入对错误样本的惩罚，错误惩罚为出错数据点与分类面的距离。如果不加入惩罚项，支持向量会变为最外侧的样本点，造成分类失败；加入惩罚项，会在最大边距与错误样本惩罚项之间得到权衡。
优化目标： $\min_{\bm{w},b,\xi_{i}} {\frac{1}{2}||{\bm{w}}||}^{2}+C\sum_{i=1}^{n}\xi_{i} \\ s.t. \ y_{i}(\bm{w}^{T}\bm{x}_{i}+b)\geq 1-\xi_{i} \\ \xi_{i}\geq 0,i=1,2,...,n$
例如可以使用hinge函数： $l(z)=\max(0,1-z)$
此时优化函数可写为：
$\min_{\bm{w},b,\xi_{i}} {\frac{1}{2}||{\bm{w}}||}^{2}+C\sum_{i=1}^{n}\max(0,1-y_{i}(\bm{w}^{T}\bm{x}_{i}+b))$
其中参数 $C$ 是一个权衡， $C$ 变大，牺牲了分类间隔，减少了训练集错误。
对偶问题为：
目标函数可写为：
$\max_{\alpha}\sum_{i=1}^{n}\alpha_{i}-\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}\kappa(\bm{x_{i},x_{j}})\\ s.t. \ \sum_{i=1}^{n}\alpha_{i}y_{i}=0, \\ 0\leq \alpha_{i} \leq C,i=1,2,...,n$
可以看出，与软间隔的目标函数相比，变化只有增加了 $\alpha_{i} \leq C$ 。
$f(\bm{x})=\bm{w}^{T}\bm{x}+b=\sum_{i=1}^{n}\alpha_{i}y_{i}\phi(\bm{x}_{i})^{T}\phi(\bm{x})+b=\sum_{i=1}^{n}\alpha_{i}y_{i}\kappa(\bm{x_{i},x})+b$

利用线性SVM对鸢尾花数据集进行分类：

from sklearn.svm import SVC
import numpy as np
from sklearn.preprocessing import StandardScaler
# 数据获取和绘图函数见决策树部分：https://blog.csdn.net/winycg/article/details/82763334
sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)
svm = SVC(kernel='linear', C=1.0, random_state=0)
svm.fit(X_train_std, y_train)

支持向量机(Support Vector Machine, SVM)

支持向量机(Support Vector Machine, SVM)

线性SVM

非线性SVM：核函数法

软边距的SVM

相关推荐