分类——线性模型

Linear Models for Classification

  与回归模型的是它的预测结果是一个离散变量。
  我们讨论的大多数分类问题类别都是不相交的,即一个样本只有一个类别。输入空间可以被划分成若干个决策区域,其边界称为决策边界(decision boundaries or decision surfaces)。标题中所谓的线性模型就是指决策边界是输入变量的线性函数。可以被线性的决策边界成功分类的问题称为线性可分的
  在分类问题中,目标变量tt的表示形式有多种。例如二分类问题t{0,1}t\in\{0,1\},0代表类别C1C_1,1代表类别C2C_2。概率模型中,t可以被解释为该样本属于C1C_1的概率。多分类问题,t往往被表示为形式如t=(0,0,1)T\mathbf{t}=(0,0,1)^T的向量,其中只有一个分量为1,表示样本属于CkC_k

判别函数 Discriminant Functions

讨论线性判别式模型,解决分类问题。几何上等价于,找一个决策平面(超平面)将不同类别的样本分开。从易到难,首先讨论二分类问题。

二分类问题

y(x)=wTx+w0 y(\mathbf{x})=\mathbf{w}^T\mathbf{x}+w_0
y(x)0y(x)\ge 0则样本分类成C1C_1类,否则为C2C_2类,决策边界为wTx+w0=0\mathbf{w}^T\mathbf{x}+w_0=0

可以看出向量w\mathbf{w}垂直于决策平面,样本到决策平面的距离
r=y(x)w r=\frac{y(x)}{\rVert \mathbf{w}\lVert}

这里留一个疑问,如何利用训练集去估计参数

多分类问题

刚刚学习了二分类问题,一个直接的想法是使用k1k-1个二分类分离器解决K分类问题,这个分类器被称为one-versus-the-rest classifier,他会有模糊区域如图
分类——线性模型
另一个简单的想法是使用K(K1)2\frac{K(K-1)}{2}个二分类器,用两条线为每一个类划分一个区域,这个分类器被称为one-versus-one classifier

分类——线性模型

第三种想法是K个线性分类器,如下
yk(x)=wkTx+wk0 y_k(\mathbf{x})=w^{T}_{k}x+w_{k0}
x被预测为CkC_{k}如果yk(x)>yj(x)y_{k}(x)>y_{j}(x)对于任意的jkj\ne k
可以证明被如此方法划分出来的决策区间是凸的。
假设x1,x2Rkx_{1},x_{2}\in \mathcal R_{k},则
x^=λx1+(1λ)x2wkTx^+wk0wkT(λx1+(1λ)x2)+wk0λ(wjTx1+wj0)+(1λ)(wjTx2+wj0),jk \hat{x} = \lambda x_{1}+(1-\lambda)x_{2} w_{k}^{T}\hat{x}+w_{k0}\le w_{k}^{T}(\lambda x_{1}+(1-\lambda)x_{2})+w_{k0}\\ \le \lambda (w_{j}^{T}x_{1}+w_{j0}) + (1-\lambda) (w_{j}^{T}x_{2}+w_{j0}),\forall j\ne k

之后讲三种训练模型的方法,分别基于最小二乘,Fisher和感知机

Least Square for Classification

在这里,我们陈述使用最小二乘法解决多酚类问题的方法。在上所说的三种分类策略中,第三种用于实际的分类问题,但需要换一种更为简洁的表达方式
y(x)=W~Tx~ \mathbf{y}(\mathbf{x})=\tilde{W}^{T}\tilde{x}\\
其中W~\tilde{W}的列向量wk~=(wk0,wkT)T\tilde{w_k}=(w_{k0},w_{k}^{T})^{T}x~=(1,xT)T\tilde{x}=(1,x^{T})^{T}。x的最终类别就是wk~Tx~\tilde{w_k}^{T}\tilde{x}最大的那一类

那么现在我们需要找到一个参数矩阵W~\tilde{W}使得二次损失函数最小
ED(W~)=12Tr((X~W~T)T(X~W~T)) E_D(\tilde{W})=\frac{1}{2}Tr((\tilde{X}\tilde{W}-T)^{T}(\tilde{X}\tilde{W}-T))
可以求得
W~=(X~TX~)1X~TT=X~T \tilde{W}=(\tilde{X}^{T}\tilde{X})^{-1}\tilde{X}^{T}T=\tilde{X}^{\dagger}T
就这样,我们容易的求出判别模型的解析解
y(x)=W~Tx~=TT(X~)Tx~ \mathbf{y}(\mathbf{x})=\widetilde{\mathbf{W}}^{\mathrm{T}} \widetilde{\mathbf{x}}=\mathbf{T}^{\mathrm{T}}\left(\widetilde{\mathbf{X}}^{\dagger}\right)^{\mathrm{T}} \widetilde{\mathbf{x}}