第三章 线性模型

基本形式
线性模型是通过属性的线性组合来进行预测的函数:
第三章 线性模型
一般用向量形式写成:
第三章 线性模型
由于w直观的表达了各属性在预测中的重要性,因此线性模型具有很好的解释性。

线性回归
线性回归则试图学得一个线性模型尽可能准确地将预测f(xi)去 逼近yi,即:
第三章 线性模型
一个良好的线性回归模型的关键就是如何将f(xi)与yi之间的误差最小化!而该模型是由w以及b确定的,那么问题回到w,b的确定:
即满足下式:
第三章 线性模型
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。
求解w和b使上式最小化的过程,称为线性回归模型的最小二乘“参数估计”。

分别对w,b求偏导并为零得到唯一最优解。这里w,b均为一个值。

当输入的x为多个特征的向量时,我们学得的线性函数称为“多元线性回归”。如下式,w,b均为向量。
第三章 线性模型
令X的增广矩阵和w^增广矩阵分别为:

第三章 线性模型
W’=(w;b)
则有:
第三章 线性模型
W’为最小二乘所求参数估计为:
第三章 线性模型
对w’求导为:
第三章 线性模型
第三章 线性模型
当X转置乘以X满秩时则可逆有唯一解,不满秩时有多个解,学习算法的归纳偏好决定选择哪个解,常见的做法是引入正则化项。

对数线性回归
第三章 线性模型
广义线性模型
第三章 线性模型
对数几率回归

对于分类任务,在式(3.15)的广义线性模型中,只需找到一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。对于二分类任务,输出标记y{0,1},而线性回归模型产生的预测值
第三章 线性模型
是实值,于是将实值z转化为0/1值,用到“单位阶跃函数”第三章 线性模型
若预测值z大于0就判为正例,小于0判为反例,为临界值可任意判别,如图3.2所示第三章 线性模型
但从图3.2看出,单位阶跃函数并不连续,希望找到一个一定程度上近似单位阶跃函数的“替代函数”并且它单调可微,对数几率函数是一个常用的替代函数:
第三章 线性模型
图3.2可以看出对数几率函数将z值转化为一个接近0或1的y值,并且输出值在z=0附近变化很陡,将对数几率函数作为g-1(x)代入式(3.15),得到第三章 线性模型
类似于式(3.14),式(3.18)可变化为第三章 线性模型
若y为样本x作为正例的可能性,则1-y是反例可能性,两者的比值称为几率,反映了x作为正例的相对可能性,对几率取对数得到对数几率,可看出式(3.18)是在用线性回归模型的预测结果逼近真实标记的对数几率,因此对应的模型称为“对数几率回归”,虽然名字是回归,但是是一种分类学习方法。

“对数几率回归”(logistic regression)亦称“对率回归”(logit regression),它的优点有:

  1. 无需事先假设数据分布
  2. 可得到“ 类别” 的近似概率预测
  3. 任意阶可导,可直接应用现有数值优化算法求取最优解

对数几率回归的代价函数
我们第一个想到的自然是模仿线性回归的做法,利用误差平方和来当代价函数。
第三章 线性模型
其中,z(i)=wTx(i)+b,i表示第i个样本点,y(i)表示第i个样本的真实值,ϕ(z(i))表示第i个样本的预测值。 这个函数是非凸的,最小化的时候会有很多局部最优解,这样不利于我们对w,b的求解。

换一个思路解决这个问题。前面,我们可以认为ϕ(z)可以视为类1的后验概率估计(先验概率基于主观评价或者客观经验的一种对事件发生概率的估计,后验概率为加入新的信息后对相应事件发生概率的一种后验估计,这里对于一个输入x,经过sigmoid函数(对输入x产生的信息变化)后,产生的值为属于类别1的一种概率估计就属于类1后验估计)。

第三章 线性模型
以上w为(w;b)下同,其中,p(y=1|x;w)表示给定w,那么x点y=1的概率大

对于给定的数据集,我们的目标是求得w使每个样本属于其真实标记的概率越大越好,使用最小二乘法的时候转换成了(yi-yi_)平方和的度量方式。这里变成了样本后验概率乘积最大化的度量方式,对于这种函数表达式L(w),接下来我们就要用极大似然估计来根据给定的训练集估计出参数w。
第三章 线性模型
于是为了简化运算求解w,两边取对数的l(w)为:
第三章 线性模型
求取使l(w)最大化的w,就是最小化-l(w),于是代价函数就成了:
第三章 线性模型
上式"+"应改为“-”,J(w)(也称为交叉熵代价函数)为凸函数,可求得唯一最优解。
即对于单独一个x,代价函数为
第三章 线性模型

然后对代价函数J(w)使用梯度下降法求解参数:
第三章 线性模型

线性判别分析
线性判别分析是一种经典的线性学习方法,在二分类问题上因为最早由Fisher提出,亦称”Fisher 判别分析”。

线性判别思想:
给定训练样例集,设法将样例投影到一条直线上,使得同类例的投影点尽可能接近,异类样例的投影点尽可能远离(有点像无监督学习pca&聚类);在对新样品进行分类时,将其投影到相同的这条直线上,在根据投影点的位置来确定新样本的类别。
第三章 线性模型
LDA目标
第三章 线性模型
第三章 线性模型
(协方差用来评估各个维度偏离其均值的程度,表明维度间的相关性,越小越紧密,投影点越近)
第三章 线性模型
类内散度矩阵:
第三章 线性模型
类间散度矩阵:

第三章 线性模型
上述目标函数可以改写为:
第三章 线性模型
这是LDA欲最大化的目标,即Sb 与Sw 的“广义瑞利商”。
分子和分母都是w的二次项,即与w长度无关,只与其方向有关。令分母为1,分子取负,转换为有约束的极值问题,再使用拉格朗日乘子法变为无约束极值问题,求导求解得到w:
第三章 线性模型
第三章 线性模型
当两类数据同先验、满足高斯分布且协方差相等时,LDA可达到最优分类。可以推广到多分类的情况中。

多类分类LDA将样本投影到d维空间,d通常远小于数据原有的属性值,可通过这个投影来减小样本点的维数,投影过程使用了类别信息,因此LDA也被称为一种经典的监督降维技术。

多分类学习
基本思路是将多分类学习任务拆为若干个二分类任务求解,三种拆分策略:“一对一”(OvO)、“一对其余”(OvR)和“多对多”(MvM)。
第三章 线性模型

  • OvO
    训练N(N-1)/2个分类器,存储开销和测试时间大
    训练只用两个类的样例,训练时间短

  • OvR
    训练N个分类器,存储开销和测试时间小
    训练用到全部训练样例,训练时间长

  • MvM—纠错输出码
    编码: 对N个类别做M次划分,每次划分将一部分类别划为正类,一部分划为反类,从而形成一个二分类训练集;这样一共产生M 个训练集,可以训练出M 个分类器。

解码:M个分类器分别对测试样本进行预测,这些预测标记组成一个编码,将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果。
第三章 线性模型
类别不平衡问题
定义:分类任务中不同类别的训练样例数目差别很大。之后我们假设正类样例数较少,反类样例数较多。

用y=w^Tx+b 对新样本x进行分类,实际上在用预测的y值与一个阈值比较。分类器决策规则为若y/1-y > 1则预测为正例。m+表示正例数目,m-表示反例数目,则观测几率为m+/m-,假设训练集是真实样本总体的无偏采样,因此观测几率代表真实几率,因此若y/1-y > m+/m-则预测为正例。要做到分类器是基于式(3.46)决策,实际在执行式(3.47),也就是类别不平衡学习的一个基本策略:“再缩放”。只需令
第三章 线性模型
再缩放三种做法:

  • “欠采样”:去除一些反例使得正反例数目接近。(丢失训练数据)
  • 增加一些正使得正反例数目接近 (容易过拟合)
  • 直接基于原始训练集学习,但在用训练好的分类器预测时,将式(3.48)嵌入到决策过程中,称为“阈值移动”。