西瓜书第三章总结

1. 线性回归

线性回归试图学得一个线性模型来尽可能准确地预测样本的输出标记,试图学得一个通过属性间的相互组合来进行预测的函数
西瓜书第三章总结
西瓜书第三章总结

线性回归损失函数、代价函数、目标函数

损失函数是定义在单个样本上的,可理解为一个样本的误差
代价函数是定义在整个训练集上的,是所有样本误差的平均,即损失函数的平均
目标函数即最终需要优化的函数。等于经验风险+结构风险(即代价函数+正则化项)
以损失函数为样本方差为例,线性回归中损失函数为
西瓜书第三章总结
代价函数为样本均方误差
西瓜书第三章总结
目标函数为
西瓜书第三章总结
这里选择的正则化项为L2范数
可以采用梯度下降法或者拟牛顿法求解上述目标函数的最优解

2.逻辑回归

当我们希望线性模型的预测值逼近真实标记时,就得到了线性回归模型,而当我们使用线性模型去逼近真实标记的衍生物时,比如我们认为真实标记是在指数尺度上的变化,那么我们可以将输出标记的对数作为线性模型要逼近的目标,即
西瓜书第三章总结
变换一下即
西瓜书第三章总结
也就是说试图是用来逼近输出标记y。
更一般地,考虑单调可微函数g(.),令
西瓜书第三章总结
,这样得到的模型称为广义线性模型。
线性回归当中我们使用线性模型进行回归学习,如果做分类学习,该怎么做呢?比如二分类任务,即输出标记y∈{0,1},而线性回归模型的预测值z是实数范围内的值,这时候我们可以将z转换为0/1值,最理想的是单位阶跃函数,但单位阶跃函数不连续,无法满足广义线性模型的定义,需要我们找到一个单调可微的函数能近似于单位阶跃函数的作用。
我们发现对数几率函数正好满足我们的需求,
西瓜书第三章总结

逻辑回归损失函数

如果我们将上式中的y视为类后验概率估计,则由
西瓜书第三章总结
可以得到
西瓜书第三章总结

西瓜书第三章总结
则样本集的似然函数为
西瓜书第三章总结
两边同时取对数即
西瓜书第三章总结
求lnL最大值,也就是求-lnL最小值,
西瓜书第三章总结
对-lnL关于w求偏导得
西瓜书第三章总结

3.正则化

正则化可以理解为一种罚函数法,即对不希望得到的结果施以惩罚,从而使得优化过程趋向于希望目标。正则化手段包括 Ridge回归(岭回归),Lasso回归以及ElasticNet回归
1.Ridge回归
采用L2范数
西瓜书第三章总结
2.Lasso回归
采用L1范数
西瓜书第三章总结
西瓜书第三章总结
L1范数和L2范数正则化都有助于降低过拟合风险,但前者还会带来一个额外的好处就是它比后者更容易获得稀疏解,即它求得的w会有更少的非零分量。
3.ElasticNet回归
西瓜书第三章总结
也即岭回归和Lasso回归的组合。

4.线性判别分析(LDA)

LDA是一种监督学习的降维技术
以二分类问题为例,给定训练样本例集,LDA的思想就是将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离。在对新样本进行分类时,将其投影到同样的这条直线上,根据投影点的位置来确定样本的类别。
西瓜书第三章总结
给定数据集D={(x1,y1),(x2,y2)…},yi∈{0,1},令Xi,μi,Σi分别表示第i类的集合、均值向量、协方差矩阵。若将数据投影到直线w上,则两类样本的中心在直线上的投影分别为wTμ0和wTμ1。协方差分别为w^TΣ0w和 w^TΣ0w。
欲使同类样例的投影点尽可能接近,可以让同类样例的投影点的协方差尽可能小,即
西瓜书第三章总结尽可能小
而欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大,即
西瓜书第三章总结尽可能大
同时考虑二者,则可得到欲最大化的目标
西瓜书第三章总结
定义类内散度矩阵
西瓜书第三章总结
以及类间散度矩阵
西瓜书第三章总结

西瓜书第三章总结

西瓜书第三章总结
则目标函数转化为
西瓜书第三章总结
由拉格朗日乘子法,即
西瓜书第三章总结
注意到Sbw的方向恒为μ0-μ1,令
西瓜书第三章总结

西瓜书第三章总结
将LDA推广到多分类任务中,假定存在N个类,且第i类实例数量为mi,定义全局散度矩阵为
西瓜书第三章总结
类内散度矩阵为每个类别的散度矩阵之和
西瓜书第三章总结
从而可以推出
西瓜书第三章总结
采用的方式为
西瓜书第三章总结

5.多分类学习

多分类学习的基本思路是拆解法,即将多分类任务拆未若干个二分类任务求解,具体来说,先对问题进行拆分,然后为拆分的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。最经典的拆分策略有三种,一对一,一对其余和多对多。

6.类别不平衡问题

类别不平衡是指分类任务中不同类别的训练样例数目差别很大的情况。现有技术大体分三类:第一类是直接对训练集里的反类样例进行欠采样,即去除一些反例使得正反例数目接近。第二类是对训练集里的正类样例进行过采样,即增加一些正例使得正反例数目接近。第三类是直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,采用再缩放。

参考

[1] 周志华.[机器学习]