SVM支持向量机及数学推导
支持向量机 Support Vector Machine
要解决的问题:什么样的决策边界最好、特征数据本身很难分等等。
决策边界:选出离数据区最远的 (Large Margin)
距离计算
假设如图:
consider x' , x'' on hyperplane
平面:
则:
则:
label :
映射
优化目标:
找到一条直线(w和b),使得离该线最近的点最远
distance化简:
放缩变换:
对于决策方程(w,b)可通过放缩使 |Y| >= 1,使更严格
目标:
所以考虑:
即
应用 拉格朗日乘子法
KKT性质:
极小值求解:
实例:
带入原式,解得:
以下a代替α。
对a1 a2求骗到,等于0得: a1=1.5 a2=-1,不满足约束条件,解在边界上。
a1=0,a2=-2/13 不满足
a1=0.25,a2=0 满足
所以最小值在(0.25,0,0.25 )取得。带入解得平面方程:
0.5x1 + 0.5x2 - 2 = 0
“支持向量机”:
边界由a不为0的点(边界上的点)构成,非边界点a必为0。由支持向量构成。
soft-margin 软间隔
排除噪音点对决策边界的影响。引入松弛因子:
新目标函数:
C大,要求严格;C小,错误容忍。C需要指定。
同样使用拉格朗日乘子法得:
核变换
低维不可分映射到高维,在低维中完成运算。