统计学习课程 1 线性回归

总结自刘东老师《统计学习》课程,教材选用周志华老师《机器学习》西瓜书
每节都给了小结,可以快速了解每节内容

From 1 to 2

从简单的问题入手

问题:珠穆朗玛峰的高度是多少?

答案1:给出一个变量值:8848米

答案2:从数据中获取知识
有一系列测量值{y1,y2,...,yny_1,y_2,...,y_n},则给出结果
y^=y1+y2+...+ynn \hat{y}=\frac{y_1+y_2+...+y_n}{n}

几何平均的意义:
1.最小二乘法的估计结果
2.统计解释:极大似然的估计结果(将珠穆朗玛峰的高度看作高斯分布,这时不仅能估计均值,还能估计方差)

考虑相关变量
珠穆朗玛峰高度和四季有关,则定义
y=ax+b y=ax+b
y是高度,x是季节,将春夏秋冬简单的量化为0,1,2,3,则采样可以得到类似如下的图
统计学习课程 1 线性回归
通过最小二乘法可以得到如下的拟合结果
统计学习课程 1 线性回归
显然这个结果并不够好,那么将变量重新映射为

夏季 春季/秋季 冬季
1 2 3

那么拟合的结果会变为
统计学习课程 1 线性回归

统计解释

将(y-(ax+b))看作一个0均值的高斯分布变量,也可以用统计学的角度对其进行极大似然估计

小结

1 常用的均值估计与最小二乘法、极大似然估计的关系
2 最小二乘拟合与极大似然估计存在关联,但不存在因果关系
3 变量的重映射很重要!

正则化 Regularization

为什么要有正则化

对待估计的参数进行约束。

考虑上一节的问题,y=ax+b中,显然季节与珠穆朗玛峰高度变化的关系较小,这时就要对a的大小进行限定。
我们有2种约束方法:
1、给定a的范围,求最小平方误差的解
2、同时最小化最小平方误差和a的值

第一种,即有约束问题
min(yi(axi+b))2,a2C \min\sum{(y_i-(ax_i+b))^2} ,\quad a^2≤C
第二种,即无约束问题
min(yi(axi+b))2+λa2 \min\sum{(y_i-(ax_i+b))^2}+\lambda a^2
这两种形式是等价的,也就是说有约束优化问题和无约束优化问题可以互相转化,这种转化通过添加(或减去)正则化项实现。

对于一般情况
minf(x),subjecttog(x)=0,h(x)0 \min f(x),subject \quad to \quad g(x)=0,h(x)≤0
可以用Lagrange乘子法转化为
L(x,λ,η)=f(x)+λg(x)+ηh(x) L(x,\lambda,\eta)=f(x)+\lambda g(x)+\eta h(x)
后两项均成为正则化项。可以得到对偶函数
d(λ,η)=minxL(x,λ,η) d(\lambda,\eta)=\min_{x}L(x,\lambda,\eta)
η>0\eta>0时,对偶函数是原问题的一个下界,即对偶函数的最大值也是原问题的下界。那么
maxλ,ηd(λ,η)=maxλ,ηminxL(x,λ,η)=d \max_{\lambda,\eta}d(\lambda,\eta)=\max_{\lambda,\eta}\min_{x}L(x,\lambda,\eta)=d^*
原问题的解记作ff^*,那么dfd^*≤f^*
当一个凸优化问题满足KKT条件时,等价于强对偶性成立,即d=fd^*=f^*

理解KKT条件

KKT条件是
f+λg+ηh=0g(x)=0h(x)0η0ηh(x)=0 \nabla f+\lambda \nabla g+\eta \nabla h=0 \\ g(x)=0\\ h(x)≤0\\ \eta≥0\\ \eta h(x)=0
第一条即可导的条件,2、3条为原有的约束条件,4为约束弱对偶性的条件(可以通过调整h(x)的符号调整)
最后一条则较难理解,ηh(x)=0\eta h(x)=0η=0\eta=0h(x)=0h(x)=0
对于一个凸优化问题,若不考虑约束的全局最优解(平方误差最小的点)在h(x)0h(x)≤0的约束范围内,则这个不等式约束不起作用,无论有没有这个约束,找到的都会是全局最优的解,则η=0\eta=0即表示不等式约束不起作用;相反,若全局最优解不在约束范围内,则不等式约束起作用,这时找到的解一定在不等式约束边界上,则h(x)=0h(x)=0

正则化的贝叶斯解释

对待估计参数做约束,在统计角度看来,就是待估计参数有一个先验分布
正则化项加的越大,说明我们对先验的估计越确信,也说明对样本数据的越不确信;而正则化项越小,说明我们更相信样本。

小结

1 正则化:增加额外信息解决病态优化问题的方法
2 增加额外信息:正则化可以将有约束问题转化为无约束问题来求解
3 解决病态优化问题:正则化约束了模型复杂度
4 KKT条件与对偶性

基函数 Basis Function

变量重映射

第一节提到,变量重映射具有优点且很重要,可以提高回归的精度
重映射用的就是基函数,即把输入x变为ϕ(x)\phi(x),在进行拟合
基函数,常用的有多项式基函数、高斯函数、sigmoid函数等等。
基函数可以让拟合结果出现非线性的形式,但通过改变维度获得简单的线性表达(wTϕ(x)+bw^T\phi(x)+b可以看作一个线性的简单表达)

统计解释

类似之前,将wTϕ(x)+bw^T\phi(x)+b看作高斯分布变量,即可进行极大似然估计,得到的结果和最小二乘法的结果依然相同

几何解释

每一个样本,通过基函数得到一个向量,所有样本张成一个空间,最终估计的y^\hat{y}是真实的y在这个子空间的投影

等效核函数

本节在SVM中详细解释
考虑正则化项时,优化
min(ywTϕ(x))+λ2wTw \min \sum (y-w^T\phi(x))+\frac{\lambda}{2}w^Tw
得到的系数解记为wridgew_{ridge}(这一形式即ridge回归)
对测试集的回归结果中,存在只与测试集的输入x和训练集的各个输入xix_i有关的项,这一项可以用核函数表示为k(x,xi)k(x,x_i)
核函数等效于使用基函数进行重映射

小结

1 基函数十分重要,将输入重映射可以提高精度
2 基函数的使用可以简化模型表达,将其表示为线性回归形式

偏差-方差分解

偏差与方差的trade-off

对一个正弦函数采样多个训练集,采样时有高斯噪声干扰,用高斯基函数拟合并应用正则化项,改变λ\lambda的结果如下
统计学习课程 1 线性回归
统计学习课程 1 线性回归
统计学习课程 1 线性回归
显然,λ\lambda越小,拟合的平均结果越接近正确的正弦函数,但每次回归的结果方差越大;λ\lambda越大,回归结果间的方差很小,但均与正确的函数有较大偏差
考虑准确值与回归的估计值的差的期望,E(yw^Tϕ(x))E(y-\hat{w}^T\phi(x)),其结果中三项分别为偏差的平方,方差与噪声之和,噪声为无法避免的,而另外两项是可以trade-off的,即把这两项和作为loss function
统计学习课程 1 线性回归
由以上实验可知,施加正则化过强,将增大偏差,而正则化施加不足,则会导致方差过大,即所谓的过拟合
在训练时,通过交叉验证(cross-validation)可以验证trade-off的效果

小结

1 偏差与方差是一对矛盾,可以trade-off
2 通过正则化进行trade-off,通过训练时的cross-validation可以验证
3 正则化项越大,偏差越大;正则化项越小,方差越大

常用的正则化形式

L范数与best subset, Lasso, Ridge回归

最小二乘法回归的优化目标为
min(yiwTϕ(xi)) \min \sum (y_i-w^T\phi(x_i))
常用的Ridge回归(岭回归)优化目标为
min(yiwTϕ(xi))+λ2wTw \min \sum (y_i-w^T\phi(x_i))+\frac{\lambda}{2}w^Tw
即约束了w2||w||_2的范围
更一般化的形式则为
min(yiwTϕ(xi))+wq \min \sum (y_i-w^T\phi(x_i))+||w||_q
LqL_q范数正则化
定义LqL_q范数
wq=wiqq ||w||_q=\sqrt [q]{\sum|{w_{|i}}|^q}
常用的正则化形式有
best subset:最小化w中不为0的个数
min(yiwTϕ(xi))+w0 \min \sum (y_i-w^T\phi(x_i))+||w||_0
Lasso回归(套索回归):最小化绝对值之和
min(yiwTϕ(xi))+w1 \min \sum (y_i-w^T\phi(x_i))+||w||_1
Ridge回归(岭回归):最小化l2l_2范数,若w是向量则最小化的是w的模
min(yiwTϕ(xi))+w2 \min \sum (y_i-w^T\phi(x_i))+||w||_2

稀疏性

best subset正则化使系数矩阵w中的0的个数最多,即得到尽可能稀疏的系数矩阵
为什么要稀疏?
稀疏性使得与回归结果时最相关的元素被提取出来
但是,l0l_0范数在0点不可导,其他位置导数为0,其优化问题是NP-hard的
可以证明,l0l_0范数的正则化与l1l_1范数的正则化大多数情况下等效,因此可以用Lasso回归代替best subset回归

小结

1 常用L范数作为正则化项
2 best subset挑选与回归结果最相关的输入分类,保证稀疏性,但求解是NP-hard问题
3 Lasso回归与best subset通常等效
4 Ridge回归,结果通常不稀疏,即正则化力度较弱

线性回归贝叶斯方法

从概率的角度看回归问题

回归,即估计映射的系数矩阵,则可以将待估计的量视作一个分布,系数先验分布假设为
p(wμ,S) p(w|\mu,S)
采样后,对每个样本有似然概率
p(yixi,w) p(y_i|x_i,w)
则利用先验概率和似然概率,可以计算后验概率
p(wxi,yi) p(w|x_i,y_i)
根据最大后验概率原则,可以估计回归系数矩阵w
统计学习课程 1 线性回归
统计学习课程 1 线性回归
上图为一个线性回归的例子,表明了样本点数增加对后验概率的改变以及回归结果的改变

先验概率与正则化

先验概率的设计,相当于对系数的约束
先验概率为0均值高斯分布,相当于用了Ridge回归
先验概率为0均值拉普拉斯分布,相当于用了Lasso回归
而先验概率中的参数(均值,方差等)可以视为超参,超参的估计也可以通过样本进行估计,将超参纳入贝叶斯模型的考虑,作为变量进行估计

小结

1 线性回归可以利用贝叶斯方法求解,估计待求系数的分布
2 贝叶斯方法和正则化存在对应关系

总结

1.线性回归,根据样本对,估计了输入输出之间的映射
2.正则化,实现了有约束问题与无约束问题的转化,约束模型复杂度解决病态回归问题,实现偏差-方差trade-off(正则化越强偏差越大,正则化越弱方差越大越容易过拟合)
3.基函数,实现输入的重映射,能将更复杂的回归模型进行简单的表示,能提高精度
4.常用的3中正则化方式,在不同程度上约束模型复杂度,追求稀疏性
5.线性回归,均可以从统计的角度理解,通过贝叶斯方法进行估计