6.0 学习导图

6.1 基本流程
给定训练样本集 D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{−1,+1} ,在样本空间中找到一个超平面,将不同类别的样本分开。

在样本空间中,划分超平面可通过如下线性方程描述:
wTx+b=0(6.1)
其中 w=⎝⎜⎜⎜⎛w1w2⋮wd⎠⎟⎟⎟⎞ 为法向量,决定超平面的方向, b 为位移项,决定超平面与原点之间的距离。将超平面简写为 (w,b) 。样本空间中任意点 x 到超平面 (w,b) 的距离为
r=∥w∥∣∣wTx+b∣∣(6.2)
证:从点 x 向超平面 (w,b) 做垂线,垂足为 x0 ,令 r=x−x0 ,则 r=∥x−x0∥ ,显然, w 平行于 r ,故有
∣wT(x−x0)∣=∣wTr∣=∣w⋅r∣=∥w∥∥r∥=∥w∥r
又 x0 在超平面上,故有
wTx0+b=0
所以
∣wT(x−x0)∣=∣wTx−wTx0∣=∣wTx+b∣
联立,可得式(6.2)
假设超平面 (w,b) 能将训练样本正确分类,即有
{wTxi+b>0,wTxi+b<0,yi=+1yi=−1
则对 w 和 b 进行等比例缩放,一定能有
{wTxi+b⩾+1,wTxi+b⩽−1,yi=+1yi=−1(6.3)
如图 6.2 所示,距离超平面最近的几个训练样本使式(6.3)的等号成立,它们被称为“支持向量”,两个异类支持向量到超平面的距离之和为
γ=∥w∥2(6.4)
它被称为“间隔”。

要找到具有“最大化间隔”的划分超平面,也就是要找到能满足式(6.3)中约束的参数 w 和 b ,使得 γ 最大,即
maxw,b∥w∥2 s.t. yi(wTxi+b)⩾1,i=1,2,…,m(6.5)
显然,上式(6.5)与下式(6.6)等价
minw,b21∥w∥2 s.t. yi(wTxi+b)⩾1,i=1,2,…,m(6.6)
这就是支持向量机(简称SVM)的基本型。
6.2 对偶问题
求解式(6.6)可得到最大间隔划分超平面所对应的模型
f(x)=wTx+b(6.7)
其中 w 和 b 是模型参数。
式(6.6)是一个凸二次规划,可以使用拉格朗日乘子法得到其“对偶问题”:
minw,b21∥w∥2 s.t. 1−yi(wTxi+b)⩽0,i=1,2,…,m(6.6)
- 加入拉格朗日乘子 αi⩾0
L(w,b,α)=21∥w∥2+i=1∑mαi(1−yi(wTxi+b)),其中,α=⎝⎜⎜⎜⎛α1α2⋮αm⎠⎟⎟⎟⎞(6.8)
w,bminαmaxL(w,b,α)
αmaxw,bminL(w,b,α)
- 对 w 和 b 求偏导令其为 0,得到内层取最小值时的解
w=i=1∑mαiyixi(6.9)
0=i=1∑mαiyi(6.10)
L(w,b,α)=21∥w∥2+i=1∑mαi(1−yi(wTxi+b))=21wTw+i=1∑mαi−i=1∑mαiyiwTxi−bi=1∑mαiyi=21i=1∑mαiyixiTi=1∑mαiyixi+i=1∑mαi−i=1∑mαiyi(i=1∑mαiyixiT)xi−0=i=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxiTxj
αmax(i=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxiTxj) s.t. i=1∑mαiyi=0 αi⩾0,i=1,2,…,m(6.11)
令 α∗ 是式(6.11)的解,则可得到 w 和 b 进而得到模型
f(x)=wTx+b=i=1∑mαiyixiTx+b(6.12)
解 α∗ 常用 SMO 方法
6.3 核函数
将式(6.7)中的 x 用 ϕ(x) 代替,常用于将原始输入空间映射到新的高维特征空间,使原本线性不可分的样本在核空间可分。
6.4 软间隔与正则化
所有样本都必须划分正确“硬间隔”,允许一些错误“软间隔”。引入损失函数和松弛变量。
软间隔增强泛化能力,可防止过拟合,但容易产生欠拟合。
6.5 支持向量回归
将分类模型转化成回归模型:SVR 支持向量回归
6.6 核方法
基于核函数的一系列学习方法:“核方法”