[机器学习] 支持向量机1——间隔和支持向量

间隔和支持向量

给定训练样本集D= ${(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{m}, y_{m})}, y_{i} \in {- 1, + 1}$ 。分类学习最基本的思想就是基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本分开，但是能将训练样本分开的划分超平面可能有很多，哪一个是最好的呢？
[机器学习] 支持向量机1——间隔和支持向量

直观上看，应该取找位于两类样本“正中间”的划分超平面，即 $B_{1}$ ，因为该划分超平面对训练样本局部扰动的“容忍”性最好。例如，由于训练集的局限性或噪声的因素，训练集外的样本可能比上图中训练样本更接近两个类的分割界，这将使许多划分超平面出现错误，而 $B_{1}$ 的超平面受影响最小。换言之，这个划分超平面所产生的分类结果是最鲁棒的，对未见的示例泛化能力最强。

在样本空间中，划分超平面可通过如下线性方程来描述：

w^{T} x + b = 0

下面我们将其记为(

ω

,b)。样本空间中任意点

x

到超平面(

ω

,b)的距离可写成

r = \frac{ω^{T} x + b}{| | ω | |}

这个公式具体可以用点到直线的距离来解释：点P( $x_{0}, y_{0}$ )到直线 $A x + B y + c = 0$ 的距离为

\frac{| A x_{0} + B y_{0} + c |}{\sqrt{A^{2} + B^{2}}}

我们希望能找到一个划分超平面能最大化间隔。最大化间隔的意思就是对于一个超平面，这个超平面两边（不同标签的数据）距离超平面最近的点到超平面的距离达到最大。

那么就引入两个概念：函数间隔和几何间隔

函数间隔和集合间隔

函数间隔
超平面 $(ω, b)$ 关于样本 $(x_{i}, y_{i})$ 的函数间隔为：

γ_{i} = y_{i} (ω^{T} x_{i} + b)

ω^{T} x + b

是用来衡量样本距离超平面远近的一种尺度，如果

y_{i}

和

ω^{T} x + b

符号一致，则表示分类的正确性和确信度（样本距离超平面的远近可以表示确信度）

但是如果 $ω, b$ 同时放大或者缩小，函数间隔会随之放大或缩小，但是实际上，分类超平面没有变。（x = 1 和 2x = 2）

几何间隔
超平面 $(ω, b)$ 关于样本 $(x_{i}, y_{i})$ 的几何间隔为：

γ_{i} = \frac{y_{i} (ω^{T} x_{i} + b)}{| | ω | |}

其中

\frac{ω^{T} x + b}{| | ω | |}

是样本到超平面的距离。乘以

y_{i}

可以表示是否正确分类。

间隔最大化

上面曾经说过，我们希望能找到一个划分超平面能最大化间隔。那么如下图所示，就是在超平面的左右两侧各找到一个距离超平面最近的样本。我们希望我们找到的超平面是所有可能的超平面里能使得间隔最大化的那个。

假设超平面就可以将样本正确分类，那么对于 $(x_{i}, y_{i}) \in D$ ，若 $y_{i} = 1$ ，则 $ω^{T} x_{i} + b > 0$ ，若 $y_{i} = - 1$ ，则 $ω^{T} x_{i} + b < 0$ ，由此可以推导

\begin{matrix} (1.1) & \begin{aligned} ω^{T} x_{i} + b \geq 1 \Rightarrow y_{i} = 1 \\ ω^{T} x_{i} + b \leq - 1 \Rightarrow y_{i} = - 1 \end{aligned} \end{matrix}

举例分离超平面最近的使得 $(1.1)$ 的等号成立，他们称之为支持向量。两个异类的支持向量到超平面的距离置和为：

γ = \frac{2}{| | ω | |}

推导过程为：
两个平行平面的距离：
平面1：

A x + b y + c_{1} = 0

平面2：

A x + b y + c_{2} = 0

γ = \frac{| c_{1} - c_{2} |}{\sqrt{A^{2} + b^{2}}}

那么最大化间隔就是找到划分超平面，满足 $(1.1)$ 的约束，使得 $γ$ 最大。

\begin{matrix} (1.2) & max_{ω, b} \frac{2}{| | ω | |} s t . y_{i} (w^{T} x_{i} + b) \geq 1 i = 1, 2..., m \end{matrix}

这个问题可以转化成 $(1.3)$

\begin{matrix} (1.3) & min_{ω, b} \frac{1}{2} | | ω | |^{2} s t . y_{i} (ω^{T} x_{i} + b) \geq 1 i = 1, 2..., m \end{matrix}

支持向量机的优缺点

优点：泛化错误率低，计算开销不大，结果易解释。
缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅适用于处理二分类问题。
使用的数值类型：数值型和标称型

参考

http://www.cnblogs.com/en-heng/p/5965438.html
机器学习（周志华）
https://blog.****.net/luoshixian099/article/details/51073885#comments

[机器学习] 支持向量机1——间隔和支持向量

间隔和支持向量

函数间隔和集合间隔

间隔最大化

支持向量机的优缺点

参考

相关推荐