机器学习十大算法之一:SVM支持向量机

机器学习十大算法之一:SVM支持向量机


1 SVM思维导图

机器学习十大算法之一:SVM支持向量机

2 SVM

2.1 SVM概念

        SVM:寻找到一个超平面使样本分成两类,并且间隔最大。而我们求得的w就代表着我们需要寻找的超平面的系数(每个特征的权重)。
                                                    机器学习十大算法之一:SVM支持向量机

2.2 确信度

        与超平面的距离表示分类的确信度,距离越远则分类正确的确信度越高:
                                                    机器学习十大算法之一:SVM支持向量机

确信度的推导 - 超平面间的距离

  •                                                   机器学习十大算法之一:SVM支持向量机
    超平面1:wx1+b1=0
    超平面2:wx2+b2=0
    向量的运算:x2=x1+tw
    wx2+b2=w(x1+tw)+b2=wx1+t||w||2+b2=b1+t||w||2+b2=0
    可以求出t:t=(b1b2)/||w||2
    计算距离:D=||tw||=|t|||w||=(b1b2)/||w||2||w||=(b1b2)||w||
    超平面线性方程:wTx+b=0
    样本中任意点到超平面距离:
    r=wTx+b||w||

    x是样本点,不在超平面上,所以wTx+b不等于0

2.3 超平面

2.3.1 样本分类

                                                    机器学习十大算法之一:SVM支持向量机

对每个向量有:

  • wT·xi+b>=1,xi属于类1
  • wT·xi+b<=1,xi属于类2
  • 所以yi(wT·xi+b)>=1

2.3.1 样本的正确分类 - 拉格朗日方法

前面计算的确信度,超平面之间的距离,有如下近似:
最大化2||w||,等价于最小化12||w||2

a. 样本的正确分类:

 minw,b12||w||2
s.t.yi(wTxi+b)>=1,i=1,2,3,...,m

b. 样本正确分类(拉格朗日方法):

f(x)=wTx+b
L(w,b,α)=12||w||2+i=1mαi(1yi(wTxi+b))

c. 对偶问题:原问题极小极大到对偶而难题的极大极小

minw,bmaxαL(w,b,α)>maxαminw,bL(w,b,α)