机器学习笔记 线性模型

写在前面的一些废话
伴随课程以及自习,学得既算系统也算零散。学校多统计,算法讲解几近寥寥。自古以来,统计系的教授多半乐于指摘机器学习与人工智能,但学科总又不得不与之挂钩密切,且多随其发展潮起潮落。内部纠纷,不足为外人道已。只有深受其纷杂概念困扰的学习者,感触颇深。不随时总结,建立知识库,实在容易迷失。

对《利用PYTHON进行数据分析》重点章节粗略研习,绘制思维导图加深记忆,成效喜闻乐见。但考虑到涉及的原理与算法,知识点繁多,思维导图不利于初学记忆与学习,故择些要点阐述与加深印象。(注:原理与算法总结多出自于《Python大战机器学习》,有兴趣者可自行阅读研习。) 文章阅读适合对像:有一定统计基础,希望串知识点,查漏补缺。

总结多数机器学习算法框架,可发现组成部分:
1. 明确样本输入与输出;
2. 构建待学习模型;
3. 确定损失函数/目标函数(平方损失函数等);
4. 明确模型目标(最小化、最大化);
5. 求解方法(最小二乘法、极大似然估计、牛顿迭代法、拉格朗日等);
6. 求解结果形式;
其中,由
于不同的模型方法,涉及的损失函数不尽相同,部分涉及参数的引进与构建。此时,求解过程多半需要参数优化与交叉验证。

正文
1.1 线性模型概述

线性模型中的“线性”其实是一系列一次特征的线性组合,在二维空间中是一条直线,在三位空间是一个平面,推广至n维空间,为广义线性模型。
广义线性模型包括:岭回归、lasso回归、Elastic Net、逻辑回归、线性判别分析等。
模型形式:机器学习笔记 线性模型
其中,机器学习笔记 线性模型表示样本,样本包含n种特征,机器学习笔记 线性模型为每个特征对应的权重生成的权重向量,直观表示各个特征在预测中的重要性。

1.2 算法精华
1.2.1 普通线性回归

原理关键词:回归分析技术、函数估计(参数估计和非参数估计)、因果关系、有监督
学习模型:机器学习笔记 线性模型
损失函数:(平方损失函数)机器学习笔记 线性模型
求解目标:机器学习笔记 线性模型
求解方法:最小二乘法与梯度下降法
注意点:梯度下降法需对特征归一化,这是许多机器学习模型都需注意的问题。特征归一化的好处:1.提升模型的收敛速度,归一化可以极大减少寻找最优解的时间;2.提升模型精度,比如计算欧式距离,取值范围大的特征对结果产生的影响较大,容易导致精度的损失。
求解过程(以多元线性回归为例):
令:

机器学习笔记 线性模型
则有:
机器学习笔记 线性模型
令:
机器学习笔记 线性模型
则:
机器学习笔记 线性模型
机器学习笔记 线性模型,求其极小值。求导令导数为零,得到解析解:
机器学习笔记 线性模型
机器学习笔记 线性模型为满秩矩阵或者正定矩阵时,可得:机器学习笔记 线性模型
机器学习笔记 线性模型不是满秩矩阵时,也就是说样本特征存在多重共线性,权重向量有多个解析解。解决方法:1.逐步回归,选择合适特征进行回归;2.偏最小二乘法或主成分回归,对变量进行降维;3.引入正则化项,也是常用方法,如L1正则化或者L2正则化,分别代表LASSO与岭回归方法。不同的正则化方法,求解结果不尽相同。以L2正则化为例:
机器学习笔记 线性模型
其中,机器学习笔记 线性模型调整正则化项与均方误差的比例;||…||2为L2范数

1.2.2 广义线性模型
考虑单调可导函数h(·),令机器学习笔记 线性模型,这样得到的模型称为广义线性模型。即对因变量与自变量进行相应变换,将非线性模型转换至线性模型进行求解。典型例子为对数线性回归:
机器学习笔记 线性模型
1.2.3 逻辑回归原理
关键词:分类、对数概率函数
Odds(优势比/概率):机器学习笔记 线性模型
Logit(log odds 对数概率):机器学习笔记 线性模型
学习模型(以二分类为例):机器学习笔记 线性模型
目标函数:(似然函数)机器学习笔记 线性模型
求解目标:极大化似然函数
求解方法:极大似然估计、梯度下降法、牛顿法
求解结果:

机器学习笔记 线性模型
对于多分类逻辑回归问题:设离散随机变量Y的取值集合为[1,2,…,K],则求解模型为
机器学习笔记 线性模型
1.2.4 线性判别分析(LDA)
原理关键词:样本投影、同类样本投影点尽可能地接近、异类样本地投影点尽可能地远离
学习模型(以二分类为例):求解满足条件的投影线,如下所示
机器学习笔记 线性模型
其中,两类样本的中心在直线上的投影分别为机器学习笔记 线性模型机器学习笔记 线性模型;两类样本投影的方差分别为机器学习笔记 线性模型机器学习笔记 线性模型
目标函数:
机器学习笔记 线性模型
求解目标:使目标函数最大化,即使同类样例投影点的方差(分母)尽可能地小,使异类样例地中心地投影点尽可能地远(分子尽可能大)
求解方法:拉格朗日乘子法
求解结果:机器学习笔记 线性模型
其中,机器学习笔记 线性模型对于多分类LDA,将样本投影到M-1维空间。但由于不止两个中心点,不能完全简单套用二类LDA的做法。考虑到每一类样本集的大小可能不同,故对这个距离加以权重。此时,定义类散布矩阵机器学习笔记 线性模型