《西瓜书》笔记03:线性模型之LR、线性判别分析(2)
1. 对数几率回归/逻辑回归/LR
此篇详述见《统计学习方法笔记06:LR逻辑回归模型》。
《西瓜书》讲此节的衔接很好。特此补充。
上节讲到线性回归应用于回归任务。但若要做分类任务咋办?
从广义模型上入手:只需要将回归模型的预测值,映射到分类任务的标记上。
例如:单位阶跃函数。对二分类任务,将模型产生的预测值是实值,转化为0/1值通过下式:
但阶跃函数不可导。一个近似替代函数就是对数几率函数:
这是一个“Sigmoid函数”:形似S形函数。代入有:
将上式变换有:
左边是求y的几率并取对数,称为对数几率。实际上在用线性回归模型的预测结果,去逼近真实标记的对数几率。该模型叫做:logistic regression,LR。
名字虽然叫回归,但针对分类任务。
优点:
- 直接对分类可能行进行建模,无需事先假设数据分布。避免了假设分布不准确带来的问题
- 不仅预测类别,可得到近似概率预测
- 对率函数任意阶可导。优化算法很喜欢。
其余可参见上述博文。
2. 线性判别分析LDA
Linear Discriminant Analysis,LDA
2.1 二分类讨论
二分类问题上最早由Fisher于1936年提出,亦称费舍尔判别分析。
思想:给定训练集,设法将样例投影到一条直线上,同类样例的投影点尽可能接近,异类样例的投影点尽可能远离(已有标签的投影,有监督的学习到这条直线)。
对新样本分类时,将其投影到同样的这条直线上,根据投影点的位置来确定新样本的类别。(另,投影其实可以看作一种降维)
一维空间,则这些值都是实数。
同类样例投影点的协方差尽可能小,异类样例投影点的距离尽可能大。最大化目标为:
然后,我们定义
则就是LDA最大化的目标。
w的解,因分子分母都是w的二次项,因此解与w的长度(w0,w1,…,wn)无关,仅与方向(每个扩充几倍长度变了但方向不变)有关。可令分母=1。则有:
由拉格朗日乘子法得到:
由贝叶斯决策理论:当两类数据同先验,满足高斯分布且协方差相等时,LDA可达到最优分类。
2.2 多分类讨论
LDA扩展到多分类问题:
W的解的矩阵,是N-1维,N是类别个数。2分类时,类别数是2。投影到直线上,则是一维。