感知机

感知机分类策略

训练集： $T=\{(x_1,y_1),...,(x_N,y_N)\}$
对损失函数极小化： $\min\limits_{w,b}L(w,b)=-\sum\limits_{x_i\in M}y_i(w\cdot x_i+b)$
$\triangledown_wL(w,b)=-\sum\limits_{x_i\in M}y_ix_i$ $\triangledown_bL(w,b)=-\sum\limits_{x_i\in M}y_i$
这里采用的是随机梯度下降（stochastic gradient descent）：一次随机选择一个误分类点使其梯度下降
- 若选 $(x_i,y_i),对w,b$ 更新：
  - $\triangledown_wL(w,b)=-y_ix_i,\triangledown_bL(w,b)=-y_i$
  - $w:=w-\eta\triangledown_wL(w,b)=w+\eta y_ix_i$ $b:=b-\eta\triangledown_bL(w,b)=b+\eta y_i$ $\eta$ 为移动步长

输入：数据集 $T,学习率\eta(0<\eta\le1)$
输出： $w,b$
模型： $f(x)=sign(w\cdot x+b)$
步骤：
- (1)选取初值 $w_0,b_0$
- (2)选取数据 $(x_i,y_i)$
- (3)若该点为误分类点，即 $y_i(wx_i+b)\le0$ $w:=w+\eta y_ix_i$ $b:=b+\eta y_i$
- (4)转至（2），直到训练集没有误分类点（或许这就是要求数据完全线性可分的原因？）

设 $(x_i,y_i)$ 会误分 $n_i$ 次，则关于 $(x_i,y_i)$ 点， $w,b$ 变化为 $\eta n_iy_ix_i,\eta n_iy_i$ ，记 $\alpha_i=\eta n_i$
最后学习到的 $w,b$ 为 $w:=w_0+\sum\limits_{i=1}^N\alpha_iy_ix_i$ $b:=b_0+\sum\limits_{i=1}^N\alpha_iy_i$
对偶算法，转化为求 $\alpha=(\alpha_1,\alpha_2,...,\alpha_N)^T(其实是n_i),b$
模型： $f(x)=sign(\sum\limits_{j=1}^N\alpha_jy_jx_j\cdot x+b)$
步骤：
- (1)初始化： $\alpha=0,b=0$
- (2)在训练集中选取 $(x_i,y_i)$
- (3)若 $y_i(\sum\limits_{j=1}^N\alpha_jy_jx_j\cdot x_i+b)\le 0$ : $\alpha_i:=\alpha_i+\eta$ $b:=b+\eta y_i$
- (4)转至（2），直到训练集没有误分类点
- 这里有 $x_i\cdot x_i$ ，表示内积，可以先生成Gram矩阵： $G=[x_i\cdot x_j]_{N\times N}$