李航《统计学习方法》SMO算法推导中的思考

1. p.128

李航《统计学习方法》SMO算法推导中的思考
图中,从上式到下式的推导不是很明了,困惑在于上式中右边含有α1,α2这样岂不是和左边的α2相消?若能相消,上述求偏导的过程中岂不是忽略了v1,v2α1,α2的函数?答案并非如此,左边的α与右边的α2相当不同。

2. 定理7.6的证明

即求最优化问题:

minα1,α2W(α1,α2)=12K11α12+12K22α22+y1y2K21α1α2(α1+α2)+y1α1i=3NyiαiKi1+y2α2i=3NyiαiKi2s.t.α1y1+α2y2=i=3Nyiαi=ς(1)0αiC,i=1,2(2)

沿着约束方向未经剪辑的解为:
α2new,unc=α2old+y2(E1E2)η

其中,
η=K11+K222K21=Φ(x1)Φ(x2)2Ei=g(xi)yi,i=1,2g(x)=i=1NαiyiK(xi,x)+b

Ei为函数g(xi)对输入xi的预测值与真实输出yi之间的差.

证明:

引入记号变量 vi=j=3NαjyjK(xi,xj)=g(xi)j=12αjyjK(xi,xj)b,i=1,2
再由α1y1+α2y2=ςyi2=1可将目标函数W(α1,α2)表示成只含α2的函数:

W(α2)=12K11(ςα2y2)2+12K22α22+y2K21(ςα2y2)α2(ςα2y2)y1α2+v1(ςα2y2)+y2v2α2

α2求偏导可得:
Wα2=K11α2+K22α22K21α2K11ςy2+K21ςy2+y1y21v1y2+v2y2

令其等于0,即可求出上述问题的最优解,得到:
(K11+K222K21)α2=y2(y2y1+ςK11ςK21+v1v2)(21)

这里,不同与书上,我先求v1v2,
vi的定义可知v1v2为:
v1v2=g(x1)j=12yjαjK1jbg(x2)j=12yjαjK2jb=g(x1)g(x2)+y1α1K21y1α1K11+y2α2K22y2α2K21α1y1+α2y2=ς,y12=1α1=(ςy2α2)y1,=g(x1)g(x2)+(ςy2α2)K21(ςy2α2)K11y2α2K21+y2α2K22=g(x1)g(x2)+ςK21ςK11+y2α2(K11+K222K21)

值得注意的是,v1v2中的α1,α2是没有更新前的α,即αold
v1v2=g(x1)g(x2)+ςK21ςK11+y2α2old(K11+K222K21)
将上式代入到式(2-1)中即可求得
α2new,unc=α2old+y2(E1E2)η