之所以在线性回归之后写SVM，是因为LogisticRegression可以认为是通过单调可微函数----Sigmod函数将回归问题引申为分类问题；而SVM则可以看做使用线性回归模型以及到所确定的超平面间的距离来进行分类任务。表达得不一定清晰，还是看下面的内容吧。

理论推导：

对偶问题：

先写出原始问题

拉格朗日乘子法：

理论推导：

二、SVM----理论推导&对偶问题、KKT条件

我们想寻找一个超平面能够将这些带有标记值二、SVM----理论推导&对偶问题、KKT条件的样本进行分类。而我们会得到如上图的多个划分超平面，而直观上应该去找两类样本“正中间”的划分超平面，就是红色的那个。因为在其他的超平面附近总有某一类样本离超平面距离很近，而取值与这些样本很相近的新样本就会很大概率上发生误分类。红色的超平面受影响最小，即最鲁棒性，泛化性能最好。

在样本空间中，划分超平面可通过如下线性方程描述：

二、SVM----理论推导&对偶问题、KKT条件

其中二、SVM----理论推导&对偶问题、KKT条件为法向量，决定了超平面的方向。为位移项，决定了超平面与原点之间的距离。超平面由和决定，记为。样本空间中任意点到超平面的距离可以写为：

二、SVM----理论推导&对偶问题、KKT条件

因为二、SVM----理论推导&对偶问题、KKT条件，假设超平面能够正确分类，则同一类的样本在超平面的一侧。通过放缩变化，也就是与同时乘一个系数，使得下面式子等式右边恒为1。

二、SVM----理论推导&对偶问题、KKT条件

使得等号成立的样本称为“支持向量(support vector)”，简单的可以记为二、SVM----理论推导&对偶问题、KKT条件。两个异类支持向量到超平面的距离之和为：。推导如下：

二、SVM----理论推导&对偶问题、KKT条件

其中二、SVM----理论推导&对偶问题、KKT条件和都满足，解出结果并带入得

二、SVM----理论推导&对偶问题、KKT条件

二、SVM----理论推导&对偶问题、KKT条件被称为“间隔(margin)”。欲求得泛化能力最强的模型，也就是找到具有“最大间隔(maximum margin)”的划分超平面，也就是找到能够满足正确分类这一约束条件的参数和，使得最大，即：

二、SVM----理论推导&对偶问题、KKT条件

也就等价于SVM基本型：

二、SVM----理论推导&对偶问题、KKT条件

对偶问题：

先写出原始问题

二、SVM----理论推导&对偶问题、KKT条件

等式约束：二、SVM----理论推导&对偶问题、KKT条件

不等式约束：二、SVM----理论推导&对偶问题、KKT条件

其中定义域为二、SVM----理论推导&对偶问题、KKT条件、和定义域的交集，而可行域是其中满足等式与不等式约束的点。我们可以看出来原始问题约束条件复杂，而可行域空间小。

拉格朗日乘子法：

拉格朗日乘子法是一种寻找多元函数在一组约束下的极值的方法。通过引入拉格朗日乘子(只是给约束条件加了个参数而已)，可将有二、SVM----理论推导&对偶问题、KKT条件个变量与个约束条件的最优化问题转化为具有个变量的无约束优化问题求解。对于同时有等式和不等式约束的情况，只要再添加拉格朗日乘子即可。

引入拉格朗日乘子二、SVM----理论推导&对偶问题、KKT条件、，那么原始问题的拉格朗日函数为：

二、SVM----理论推导&对偶问题、KKT条件

现在我们得到了一个没有约束条件，但是式子变得更为复杂的一个函数，这个函数是以二、SVM----理论推导&对偶问题、KKT条件、和为变量。其中

二、SVM----理论推导&对偶问题、KKT条件，

现在让我们先停一下，看看我们的原始问题是什么。我们想在二、SVM----理论推导&对偶问题、KKT条件的定义域中找到使得最小的解。我们首先将固定住，使得是关于和的函数，求其最大值，即。

为什么要求这个最大值呢？个人的理解：若约束条件不成立，例如二、SVM----理论推导&对偶问题、KKT条件了，那么这样构建的拉格朗日函数的最大值将突破天际，没有上线；若全部约束条件都满足（，）,则很明显，拉格朗日函数此时的最大值就是的最大值加上后面求和的最大值。后面求和的最大值只能是0，所以二、SVM----理论推导&对偶问题、KKT条件的最大值就等于的最大值。

那么这个最大值二、SVM----理论推导&对偶问题、KKT条件也就是一个只与有关的函数。接着我们在的定义域中搜索解。也就是：

二、SVM----理论推导&对偶问题、KKT条件

什么是对偶问题呢？

在刚在的求解思路中，我们先固定了二、SVM----理论推导&对偶问题、KKT条件，然后先求，再求。这是一个极小极大问题。而“对偶问题”可以简单理解为将这个顺序调换。变成极大极小问题。

二、SVM----理论推导&对偶问题、KKT条件

先定义原始问题的拉格朗日“对偶函数”

二、SVM----理论推导&对偶问题、KKT条件

这里的二、SVM----理论推导&对偶问题、KKT条件表示寻找下确界，表示在定义域中求解。

对偶函数为原始问题提供下界，引出优化问题

记二、SVM----理论推导&对偶问题、KKT条件为可行域的点（就是满足约束条件的点），则

二、SVM----理论推导&对偶问题、KKT条件

记原始问题的解为二、SVM----理论推导&对偶问题、KKT条件。则对和，。

看到这里可能会有人想，不对啊，我们是搞出来一个“对偶函数”，但是给出的是原始问题的下界啊，也就是说原始问题的解我们还没找到呀。下面就来看看怎么利用对偶函数解原始问题。

利用对偶函数解原始问题

既然对偶函数给出了原始问题的下界，且这个下界取决于二、SVM----理论推导&对偶问题、KKT条件和的值。那么问题来了：基于对偶函数能得到的最好的下界是什么呢？从而引出优化问题：

二、SVM----理论推导&对偶问题、KKT条件

这就是原始问题的对偶问题。二、SVM----理论推导&对偶问题、KKT条件和称为“对偶变量”。无论原始问题凸性如何，对偶问题始终是凸优化问题。

因为二、SVM----理论推导&对偶问题、KKT条件，所以，那么当所有，则“对偶问题”的解也就成了原始问题的解。这就引出了下面的KKT条件。

KKT条件

对偶性：

弱对偶性：二、SVM----理论推导&对偶问题、KKT条件强对偶性：

想要二、SVM----理论推导&对偶问题、KKT条件成立，

二、SVM----理论推导&对偶问题、KKT条件

第一个不等号：二、SVM----理论推导&对偶问题、KKT条件为极小值，第二个不等号：，再加上之前的一些条件，则构成了KKT条件：

二、SVM----理论推导&对偶问题、KKT条件

具体的理解看最后的参考博客，讲的很详细。

为什么要用对偶问题呢？

从上面的分析我们可能感觉，对偶问题只是从另一个角度或者是按另一种顺序解决了原始问题。而且强对偶性的成立建立在满足Slater条件。即原始问题为凸优化问题，二、SVM----理论推导&对偶问题、KKT条件和为凸函数，为仿射函数(即由一阶多项式构成的函数，f(x)=Ax + b, A是矩阵，x，b是向量)，且其可行域至少有一点使不等式约束严格成立，则此时强对偶性成立。