第三章线性模型

基本形式
线性模型是通过属性的线性组合来进行预测的函数:
第三章线性模型
一般用向量形式写成：

由于w直观的表达了各属性在预测中的重要性，因此线性模型具有很好的解释性。

线性回归
线性回归则试图学得一个线性模型尽可能准确地将预测f(xi)去逼近yi，即：
第三章线性模型
一个良好的线性回归模型的关键就是如何将f(xi)与yi之间的误差最小化！而该模型是由w以及b确定的，那么问题回到w，b的确定：
即满足下式：

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。
求解w和b使上式最小化的过程，称为线性回归模型的最小二乘“参数估计”。

分别对w,b求偏导并为零得到唯一最优解。这里w,b均为一个值。

当输入的x为多个特征的向量时，我们学得的线性函数称为“多元线性回归”。如下式，w，b均为向量。
第三章线性模型
令X的增广矩阵和w^增广矩阵分别为：

第三章线性模型
W’=(w;b)
则有：

W’为最小二乘所求参数估计为：

对w’求导为：

当X转置乘以X满秩时则可逆有唯一解，不满秩时有多个解，学习算法的归纳偏好决定选择哪个解，常见的做法是引入正则化项。

对数线性回归
第三章线性模型
广义线性模型

对数几率回归

对于分类任务，在式(3.15)的广义线性模型中，只需找到一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。对于二分类任务，输出标记y{0,1}，而线性回归模型产生的预测值
第三章线性模型
是实值，于是将实值z转化为0/1值，用到“单位阶跃函数”
若预测值z大于0就判为正例，小于0判为反例，为临界值可任意判别，如图3.2所示
但从图3.2看出，单位阶跃函数并不连续，希望找到一个一定程度上近似单位阶跃函数的“替代函数”并且它单调可微，对数几率函数是一个常用的替代函数：
第三章线性模型
图3.2可以看出对数几率函数将z值转化为一个接近0或1的y值，并且输出值在z=0附近变化很陡，将对数几率函数作为g-1(x)代入式(3.15)，得到
类似于式(3.14)，式(3.18)可变化为
若y为样本x作为正例的可能性，则1-y是反例可能性，两者的比值称为几率，反映了x作为正例的相对可能性，对几率取对数得到对数几率，可看出式(3.18)是在用线性回归模型的预测结果逼近真实标记的对数几率，因此对应的模型称为“对数几率回归”，虽然名字是回归，但是是一种分类学习方法。

“对数几率回归”（logistic regression）亦称“对率回归”（logit regression）,它的优点有：

无需事先假设数据分布
可得到“ 类别” 的近似概率预测
任意阶可导，可直接应用现有数值优化算法求取最优解

对数几率回归的代价函数
我们第一个想到的自然是模仿线性回归的做法，利用误差平方和来当代价函数。
第三章线性模型
其中，z(i)=wTx(i)+b，i表示第i个样本点，y(i)表示第i个样本的真实值，ϕ(z(i))表示第i个样本的预测值。这个函数是非凸的，最小化的时候会有很多局部最优解，这样不利于我们对w,b的求解。

换一个思路解决这个问题。前面，我们可以认为ϕ(z)可以视为类1的后验概率估计（先验概率基于主观评价或者客观经验的一种对事件发生概率的估计，后验概率为加入新的信息后对相应事件发生概率的一种后验估计，这里对于一个输入x，经过sigmoid函数（对输入x产生的信息变化）后，产生的值为属于类别1的一种概率估计就属于类1后验估计）。

第三章线性模型
以上w为（w;b）下同，其中，p(y=1|x;w)表示给定w，那么x点y=1的概率大

对于给定的数据集，我们的目标是求得w使每个样本属于其真实标记的概率越大越好,使用最小二乘法的时候转换成了（yi-yi_)平方和的度量方式。这里变成了样本后验概率乘积最大化的度量方式，对于这种函数表达式L(w),接下来我们就要用极大似然估计来根据给定的训练集估计出参数w。
第三章线性模型
于是为了简化运算求解w，两边取对数的l(w)为：

求取使l(w)最大化的w,就是最小化-l(w)，于是代价函数就成了：

上式"+"应改为“-”，J（w）（也称为交叉熵代价函数）为凸函数，可求得唯一最优解。
即对于单独一个x，代价函数为
第三章线性模型

然后对代价函数J（w）使用梯度下降法求解参数：
第三章线性模型

线性判别分析
线性判别分析是一种经典的线性学习方法，在二分类问题上因为最早由Fisher提出，亦称”Fisher 判别分析”。

线性判别思想：
给定训练样例集，设法将样例投影到一条直线上，使得同类例的投影点尽可能接近，异类样例的投影点尽可能远离（有点像无监督学习pca&聚类）；在对新样品进行分类时，将其投影到相同的这条直线上，在根据投影点的位置来确定新样本的类别。
第三章线性模型
LDA目标

（协方差用来评估各个维度偏离其均值的程度，表明维度间的相关性，越小越紧密，投影点越近）

类内散度矩阵：

类间散度矩阵：

第三章线性模型
上述目标函数可以改写为：

这是LDA欲最大化的目标，即Sb 与Sw 的“广义瑞利商”。
分子和分母都是w的二次项，即与w长度无关，只与其方向有关。令分母为1，分子取负，转换为有约束的极值问题，再使用拉格朗日乘子法变为无约束极值问题，求导求解得到w：
第三章线性模型

当两类数据同先验、满足高斯分布且协方差相等时，LDA可达到最优分类。可以推广到多分类的情况中。

多类分类LDA将样本投影到d维空间，d通常远小于数据原有的属性值，可通过这个投影来减小样本点的维数，投影过程使用了类别信息，因此LDA也被称为一种经典的监督降维技术。

多分类学习
基本思路是将多分类学习任务拆为若干个二分类任务求解，三种拆分策略：“一对一”(OvO)、“一对其余”(OvR)和“多对多”(MvM)。
第三章线性模型

OvO
训练N(N-1)/2个分类器，存储开销和测试时间大
训练只用两个类的样例，训练时间短
OvR
训练N个分类器，存储开销和测试时间小
训练用到全部训练样例，训练时间长
MvM—纠错输出码
编码：对N个类别做M次划分，每次划分将一部分类别划为正类，一部分划为反类，从而形成一个二分类训练集；这样一共产生M 个训练集，可以训练出M 个分类器。

解码：M个分类器分别对测试样本进行预测，这些预测标记组成一个编码，将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果。
第三章线性模型
类别不平衡问题
定义：分类任务中不同类别的训练样例数目差别很大。之后我们假设正类样例数较少，反类样例数较多。

用y=w^Tx+b 对新样本x进行分类，实际上在用预测的y值与一个阈值比较。分类器决策规则为若y/1-y > 1则预测为正例。m+表示正例数目，m-表示反例数目，则观测几率为m+/m-，假设训练集是真实样本总体的无偏采样，因此观测几率代表真实几率，因此若y/1-y > m+/m-则预测为正例。要做到分类器是基于式(3.46)决策，实际在执行式(3.47)，也就是类别不平衡学习的一个基本策略：“再缩放”。只需令
第三章线性模型
再缩放三种做法：

“欠采样”：去除一些反例使得正反例数目接近。（丢失训练数据）
增加一些正使得正反例数目接近（容易过拟合）
直接基于原始训练集学习，但在用训练好的分类器预测时，将式(3.48)嵌入到决策过程中，称为“阈值移动”。

第三章 线性模型

相关推荐