机器学习之支持向量机

线性分类器中主要任务是在样本空间中寻找一个超平面将不同类别的样本分开。
这些超平面有很多，一般来说，”正中间“的泛化性能最强，鲁棒性最好。
间隔与支持向量
划分超平面可描述为： $\omega^Tx+b=0$
$\omega=(\omega_1;\omega_2;\cdots;\omega_d)$ 为法向量，决定方向；
$b$ 为位移量，决定超平面到原点的距离。
任意点x到超平面 $(\omega,b)$ 的距离为 $r=\frac{|\omega^Tx+b|}{||\omega||}$
假设超平面分类正确，那么
若 $(x_i,y_i)\in D$ , $y_i=+1$ 则 $\omega^Tx_i+b>0$ , $y_i=-1$ 则 $\omega^Tx_i+b<0$ ；令 $\omega^Tx_i+b>=1$ , $y_i=+1$ ; $\omega^Tx_i+b<=-1$ , $y_i=-1$
距离超平面最近的几个训练样本点使得上式成立，称为支持向量。
两个异类支持向量到超平面的距离之和为 $\gamma=\frac{2}{||\omega||}$ ，称为间隔。
SVM的基本型
找到 $\omega$ 和 $b$ 满足 $y_i(\omega^Tx_i+b)>=1$ , $i=1,2,\cdots,m$ 使得间隔 $\gamma=\frac{2}{||\omega||}$ 最大。
这等价于：找到 $\omega$ 和 $b$ 满足 $y_i(\omega^Tx_i+b)>=1$ , $i=1,2,\cdots,m$ 使得 $\frac{1}{2}{||\omega||}^2$ 最小(式1)。
对偶问题
对式1使用拉格朗日乘子法，得到其对偶问题。
#1. $L(\omega,b,\alpha)=\frac{1}{2}||\omega||^2+\sum\limits_{i=1}^{m}\alpha_i(1-y_i(\omega^Tx_i+b))$
#2.令 $L(\omega,b,\alpha)$ 对 $\omega$ 和b的偏导等于零，即得： $\omega=\sum\limits_{i=1}^{m}\alpha_iy_ix_i$ $\sum\limits^{m}_{i=1}\alpha_iy_i=0(*)$ #3.代回即得： $L(\omega,b,\alpha)=\sum\limits_{i=1}^{m}\alpha_i-\frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j$ #4.考虑(*)处约束，即得式1的对偶问题： $\max\limits_{\alpha}\,\,\,\,\,\,\,\sum\limits_{i=1}^{m}\alpha_i-\frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j$ s.t. $\sum\limits^{m}_{i=1}\alpha_iy_i=0(*)$ $\alpha_i>=0$ .
解的稀疏性
求出 $\alpha$ 后即得最终模型：
$f(x)=\omega^Tx+b=\sum\limits^{m}_{i=1}\alpha_iy_ix_i^Tx+b$
KKT条件： $\left\{\begin{matrix} \alpha_i>=0\\ y_if(x_i)>=1\\\alpha_i(1-y_if(x_i))=0 \end{matrix}\right.$
即必有： $\alpha_i=0$ 或者 $y_if(x_i)=1$
由此体现解的稀疏性：训练完成后，最终模型只与支持向量有关。
特征空间映射
不存在一个超平面能将两类样本正确划分时，可将样本从原始空间映射到更高维度的特征空间，使得样本在这个特征空间内线性可分。
设样本 $x$ 映射后的向量为 $\phi(x)$ ，划分超平面为：
$f(x)=\omega^T\phi(x)+b$
原始问题：找到 $\omega$ 和 $b$ 满足 $y_i(\omega^T\phi(x_i)+b)>=1$ , $i=1,2,\cdots,m$ 使得 $\frac{1}{2}{||\omega||}^2$ 最小
对偶问题： $\max\limits_{\alpha}\,\,\,\,\,\,\,\sum\limits_{i=1}^{m}\alpha_i-\frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_jy_iy_j\phi(x_i)^T\phi(x_j)$ s.t. $\sum\limits^{m}_{i=1}\alpha_iy_i=0(*)$ $\alpha_i>=0$ .
预测模型： $f(x)=\omega^T\phi(x)+b=\sum\limits^{m}_{i=1}\alpha_iy_i\phi(x_i)^T\phi(x)+b$
核函数
设计核函数 $k(x_i,x_j)=\phi(x_i)^T\phi(x_j)$ 解决内积 $\phi(x_i)^T\phi(x_j)$ 因维度过高计算困难的问题。
只要一个对称函数对应的矩阵半正定，这个函数就能作为核函数使用。
常用核函数：文本数据常用线性核，情况不明时先尝试高斯核。
若 $k_1(x_i,x_j)$ , $k_1(x_i,x_j)$ 均为核函数，那么对任意正数 $\gamma_1$ 、 $\gamma_1$ 和任意函数 $g(x)$ ： $\gamma_1k_1(x_i,x_j)+\gamma_2k_2(x_i,x_j)$ 、 $k_1(x_i,x_j)k_1(x_i,x_j)$ 、 $k(x_i,x_j)=g(x_i)k_1(x_i,x_j)g(x_j))$ 均为核函数。
软间隔
允许在一些样本上不满足约束
优化目标：在最大化间隔的同时，让不满足约束 $y_i(\omega^Tx_i+b)>=1$ 的样本数尽可能少。
$\min\limits_{\omega,b}\,\,\,\,\,\frac{1}{2}||\omega||^2+C\sum\limits_{i=1}^{m}l_{0/1}(y_i(\omega^Tx_i+b)-1)$
其中， $l_{0/1}(z)=\left\{\begin{matrix} 1\,\,\,if\,z<0\\ 0\,\,\,else \end{matrix}\right.$
非凸、不连续、不易优化
替代损失函数： $l_{hinge}(z)=max(0,1-z)$ 、 $l_{exp}(z)=exp(-z)$ 、 $l_{log}(z)=log(1+exp(-z))$
替代损失的一致性问题讨论：
原始问题： $\min\limits_{\omega,b}\,\,\,\,\,\frac{1}{2}||\omega||^2+C\sum\limits_{i=1}^{m}max(0,1-y_i(\omega^Tx_i+b))$
引入松弛变量 $\xi_i$ : $\min\limits_{\omega,b}\,\,\,\,\,\frac{1}{2}||\omega||^2+C\sum\limits_{i=1}^{m}\xi_i$ ,
s.t. $y_i(\omega^Tx_i+b)>=1-\xi_i$ $\xi_i>=0$
对偶问题： $\max\limits_{\alpha}\,\,\,\,\,\,\,\sum\limits_{i=1}^{m}\alpha_i-\frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j$ s.t. $\sum\limits^{m}_{i=1}\alpha_iy_i=0$ $0\leq\alpha_i<=C$ .
最终模型仍只与支持向量有关。
支持向量回归(SVR)
基本思路：允许模型输出与实际输出存在 $2\epsilon$ 的差别。
使用 $\epsilon$ 不敏感损失函数： $l_\epsilon(z)=\left\{\begin{matrix} 0\,\,\,if\,z\leq|\epsilon|\\ |z|-\epsilon\,\,\,else \end{matrix}\right.$ ，表示落入 $2\epsilon$ 间隔段内的数据不计算损失。
原始问题： $\min\limits_{\omega,b,\xi_i,\hat{\xi_i}}\,\,\frac{1}{2}||\omega||^2+C\sum\limits_{i=1}^{m}(\xi_i+\hat{\xi_i})$ ,s.t. $f(x_i)-y_i\leq\xi_i+\epsilon$ $y_i-f(x_i)\leq\hat{\xi_i}+\epsilon$ $\xi_i>=0$ $\hat{\xi_i}>=0$
对偶问题：

KKT条件：

最终模型：
$f(x)=\sum\limits_{i=1}^{m}(\hat{\alpha_i}-\alpha_i)x_i^Tx+b$
在求得 $\alpha_i$ 后，根据KKT条件，当 $C-\alpha_i\neq 0$ 时，利用 $\alpha_i(f(x_i)-y_i-\epsilon)=0$ 求出 $b$ 。更鲁棒的方法是找到所以 $0=<\alpha_i\leq C$ 的 $\alpha_i$ 求出b后取平均值。
核方法
表示定理：
最常见的核方法是通过引入核函数（核化）将线性学习器拓展为非线性学习器。

机器学习之支持向量机

相关推荐