机器学习&深度学习&强化学习笔记整理(二)——最小二乘法
1.最小二乘法
最小二乘法也叫做损失最小化学习法,适用于较小规模数据的学习,有过拟合的弱点。
梯度下降法是适用于大规模数据学习的算法,该方法的收敛速度依赖于梯度下降的步幅及收敛结果的判断方法。
2.带有约束条件的最小二乘法
原因:当参数较多时,求解参数及学习得到的函数的输出值的过程耗费大量的时间
优点:省时、防止过拟合
(1)部分空间约束的最小二乘法
只使用参数空间的一部分,保证参数θ不偏移到值域R(P)范围之外,通过正交投影矩阵P实现约束。
如果使用主成分分析法求解该部分空间,则该方法为主成分回归PCA。
约束条件:Pθ=θ
假设只有两个参数,约束后参数空间如下图所示:
问题:P的设置有很大的自由度,实际操作有较大难度。
(2)约束的最小二乘学习法
约束条件:||θ||^2≤R,可以转换为拉格朗日对偶问题求最优解
假设只有两个参数,约束后参数空间如下图所示:
(3)一般约束的最小二乘学习法
与约束的最小二乘学习法相似,将参数的取值空间限制在椭圆形状的区域内。
3.稀疏学习
目的:将大部分参数置为0,用于正则化,防止过拟合
特征选择:
向前选择法、向后删除法:逐次试错,不充分考虑最优组合
随意选择:面临维度灾难问题
稀疏学习:考虑特征之间的联系,更适合稀疏学习
方法:
(1)约束的最小二乘学习法(Lasso回归)
使用L1范数作为约束条件,得到的参数的解位于最标轴上,这样得到的参数有若干个为0,也就达到了稀疏的目的。
如下图所示,黑色圆点为最优解,红色圆点为求得的解
(2)约束的最小二乘学习法
使用Lp范数作为约束条件
当p≤1时,Lp范数在坐标轴呈有峰值的尖形 ==> 存在稀疏解
当p>1时,Lp范数在坐标轴呈凸形 ==> 不是凸形的话,会存在局部最优解,优化起来很困难
(3)+
约束的最小二乘学习法(弹性网回归学习法)
保留约束的尖形用来稀疏,同时保留
约束的通用性
4.鲁棒学习
鲁棒性:在统计学领域和机器学习领域,对异常值也能保持稳定可靠的性质。
前提:最小二乘学习法容易受到异常值的影响。
方法:
(1)损失最小化学习
原理:使用损失对残差的增幅加以抑制的学习算法,
损失受异常值的影响较小
损失 ==> 残差的绝对值之和
缺点:高鲁棒性 ==> 学习效果差一些,训练样本与学习模型不十分吻合。
(2)Huber损失最小化学习(+
损失)
原理:使用一个阈值η判断正常值和异常值,正常值的损失函数为损失,异常值的损失函数为
损失。
求解方法:反复迭代求解,反复加权最小二乘学习法。
(3)图基(Tukey)损失最小化学习
原理:对Huber方法的改进,Huber方法中,当残差较大时(异常值)学习权重也不会变为0,在Tukey方法中,对与较大残差的学习权重直接设置为0.
优点:有非常高的鲁棒性。
缺点:不是凸函数,存在多个局部最优解,数据的微小变化可能会产生其它最优解。
(4)约束的Huber损失最小化学习
原理:在Huber损失最小化学习的基础上加上约束,提高鲁棒性的同时预防过拟合。