吴恩达机器学习-第七周

1.支持向量机优化目标

SVM (Support Vector Machine)
由逻辑回归修改至支持向量机:hθ(x)=11+eθTx假设函数:h_\theta(x)={1 \over 1+e^{-\theta^Tx} }
吴恩达机器学习-第七周
可知: 逻辑回归为分类函数,如果y=1则希望hθh_\theta能够接近1,因此θTx\theta^Tx要远远大于0,否则则相反。

观察: 损失函数:
Cost(hθ(x(i)),y(i))=y×log(hθ(x))(1y)×log(1hθ(x))Cost(h_{\theta}(x^{(i)}),y^{(i)})=-y\times\log(h_\theta(x))-(1-y)\times\log(1-h_\theta(x))

y = 1时候:Cost=log11+eθTxCost=-\log{1 \over 1+e^{-\theta^Tx} },利用粉色线模拟原图像,称之cost1(z)z>1cost_1(z),z>1 损失最小
吴恩达机器学习-第七周

y = 0时候:Cost=log(111+eθTx)Cost=\log(1-{1 \over 1+e^{-\theta^Tx} }),利用粉色线模拟原图像,称之cost0(z)z<1cost_0(z),z<-1 损失最小
吴恩达机器学习-第七周

构建支持向量机 :

  • 逻辑回归损失函数中,去掉1m1 \over m,加入参数C,去掉λ\lambda,C=1λC={1 \over \lambda}得到支持向量机优化的目标函数,最小化目标函数,学习到C

吴恩达机器学习-第七周
吴恩达机器学习-第七周吴恩达机器学习-第七周

2.支持向量机大边界

吴恩达机器学习-第七周吴恩达机器学习-第七周
可见三条线均可以分类但是黑色线更佳
其中C的作用:
C相当于λ\lambda的倒数因此与λ\lambda影响正相反
C较大时,λ\lambda较小,容易过拟合,导致高方差
C较小时,λ\lambda较大,容易欠拟合,导致高偏差

向量内积知识补充:uTv=pv,puvu^Tv = p\cdot ||v||,p为u投影在v上的向量,

简化损失函数前项为0,则结果为12θ,θ使12θθTx=pθ,pθ>0,p{1\over2}||\theta||,即为损失成本函数,找到\theta使{1\over2}||\theta||最小,由补充的知识可知\theta^Tx= p\cdot ||\theta||,p\cdot ||\theta||>0,p大了,就可以让变小一些,即损失最小化,实现了大边界

3.核函数

高斯核函数
吴恩达机器学习-第七周如何选取地标呢,就是从训练集m选m个地标,每个都进行运算得到对应的f(i)f^{(i)}

吴恩达机器学习-第七周
吴恩达机器学习-第七周选择不带任何内核参数的为线性核函数

选用逻辑回归和向量机的普遍使用准则:

  • 如果n比m大很多,即训练集数据量不够支持我们训练一个复杂非线性模型,选用逻辑回归或是不带核函数的支持向量机
  • 如果n较小,m中等大小,比如n为1-1000,m为10-10000之间,则使用高斯核函数的SVM
  • 如果n较小,m较大,比如n为1-1000,m大于50000,则SVM非常慢