Linear Models for Classification
与回归模型的是它的预测结果是一个离散变量。
我们讨论的大多数分类问题类别都是不相交的,即一个样本只有一个类别。输入空间可以被划分成若干个决策区域,其边界称为决策边界(decision boundaries or decision surfaces)。标题中所谓的线性模型就是指决策边界是输入变量的线性函数。可以被线性的决策边界成功分类的问题称为线性可分的。
在分类问题中,目标变量t的表示形式有多种。例如二分类问题t∈{0,1},0代表类别C1,1代表类别C2。概率模型中,t可以被解释为该样本属于C1的概率。多分类问题,t往往被表示为形式如t=(0,0,1)T的向量,其中只有一个分量为1,表示样本属于Ck
判别函数 Discriminant Functions
讨论线性判别式模型,解决分类问题。几何上等价于,找一个决策平面(超平面)将不同类别的样本分开。从易到难,首先讨论二分类问题。
二分类问题
y(x)=wTx+w0
若y(x)≥0则样本分类成C1类,否则为C2类,决策边界为wTx+w0=0
可以看出向量w垂直于决策平面,样本到决策平面的距离
r=∥w∥y(x)
这里留一个疑问,如何利用训练集去估计参数
多分类问题
刚刚学习了二分类问题,一个直接的想法是使用k−1个二分类分离器解决K分类问题,这个分类器被称为one-versus-the-rest classifier,他会有模糊区域如图

另一个简单的想法是使用2K(K−1)个二分类器,用两条线为每一个类划分一个区域,这个分类器被称为one-versus-one classifier

第三种想法是K个线性分类器,如下
yk(x)=wkTx+wk0
x被预测为Ck如果yk(x)>yj(x)对于任意的j=k
可以证明被如此方法划分出来的决策区间是凸的。
假设x1,x2∈Rk,则
x^=λx1+(1−λ)x2wkTx^+wk0≤wkT(λx1+(1−λ)x2)+wk0≤λ(wjTx1+wj0)+(1−λ)(wjTx2+wj0),∀j=k
之后讲三种训练模型的方法,分别基于最小二乘,Fisher和感知机
Least Square for Classification
在这里,我们陈述使用最小二乘法解决多酚类问题的方法。在上所说的三种分类策略中,第三种用于实际的分类问题,但需要换一种更为简洁的表达方式
y(x)=W~Tx~
其中W~的列向量wk~=(wk0,wkT)T,x~=(1,xT)T。x的最终类别就是wk~Tx~最大的那一类
那么现在我们需要找到一个参数矩阵W~使得二次损失函数最小
ED(W~)=21Tr((X~W~−T)T(X~W~−T))
可以求得
W~=(X~TX~)−1X~TT=X~†T
就这样,我们容易的求出判别模型的解析解
y(x)=WTx=TT(X†)Tx