《统计学习方法》 第二章 感知机 笔记
第二章 感知机
2.1 感知机模型
- 模型:从假设空间中找到的一个最优的
- 决策函数:
- 属于判别模型
- 分离超平面:下图 左下为正例,右上为负例
2.2 感知机学习策略
- 定义经验损失函数极小化
- 损失函数的两种选择:
- 误分类点的总数:但该函数不是参数w,b的连续可导函数
- 误分类点到超平面S的总距离: 感知机采样该策略,因为该函数不是参数w,b的连续可导函数
- 上式的系数可去,因为w,b分别乘了个系数之后,变成另一个w1,b1,但我们只是为了求出参数w,b,故可去。
2.3 感知机学习算法
-
求解最优化问题:
- 随机梯度下降法 vs 批量梯度下降
- 后者,数据量大,慢
- 感知机中选用前者,极小化过程一次随机选取一个误分类点使其梯度下降。
- 随机梯度下降法 vs 批量梯度下降
-
损失函数L(w,b)的梯度:
注:上面的两个式子都是正的 -
对w,b进行更新
2.3.2 算法的收敛性
- 感知机对于线性可分的决策函数,有解且收敛(迭代次数有上界)
- 当训练集线性不可分时,感知机算法不收敛,迭代结果会发生震荡,故线性不可分的问题,不能使用感知机。
2.3.3 感知机学习算法的对偶形式
-