【机器学习】如何对抗过拟合(交叉验证与正则化)

思考

  1. 什么是拟合与过拟合
  2. 如何对抗过拟合

简单回顾下欠拟合与过拟合

在之前的博客中,博主针对欠拟合与过拟合简单总结过。博客链接:欠拟合与过拟合

拟合、欠拟合与过拟合

  • 在训练模型时,涉及到选择与比较不同的模型在训练集和测试集的预测结果
  • 这里有Bias(偏差)与Variance(方差)
  • 拟合
    • 抓住主要特征,主要规律,主要趋势,可用于同一总体的其他采样样本的结果预测

【机器学习】如何对抗过拟合(交叉验证与正则化)

* 欠拟合:
* 模型不够复杂,漏掉了部分数据规律
* high bias
* 增加模型复杂度

【机器学习】如何对抗过拟合(交叉验证与正则化)

  • 过拟合:
    • 模型过于复杂,把样本的部分随机误差当作了总体的数据规律,并用模型进行解释。这部分解释并不能推广到总体分布的其他样本中。
    • high variance
    • 减少不必要的模型复杂度

【机器学习】如何对抗过拟合(交叉验证与正则化)

对抗过拟合

  1. 交叉检验
  2. 正则化(regularization)
    • L1
    • L2

1. 从验证训练结果入手:交叉验证(cross-validation)

“交叉验证法”先将数据集D划分为k个大小相似的互斥子集,即D=D1D2...Dk,DiDj=(ij). 每个子集 Di 都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用 k1 个子集的并集作为训练集,余下的那个子集作为测试集,由此可以得到 k 组训练/测试集,从而可进行 k 次训练和测试,最终返回的是这 k 个测试结果的均值。以下为“10折交叉验证示意图”(此解释来自周志华教授的西瓜书,很容易理解)

【机器学习】如何对抗过拟合(交叉验证与正则化)

2. 从限制模型复杂度入手:正则化(regularization)

  • 以线性回归为例:

Loss=i=1N(yiβ0j=1pxijβj)2

如果βj被限制在一个较小的范围,那么所对应的xij对模型复杂度对影响就会减弱

  • L1 norm: Lasso
  • 使用L1正则的线性回归模型称为LASSO回归

    β^Lasso=argminβi=1N(yiβ0j=1pxijβj)2,subject to j=1N||βj||t,

  • L2 norm: Ridge

  • 使用L2正则的线性回归模型就称为Ridge回归(岭回归)
    β^Ridge=argminβi=1N(yiβ0j=1pxijβj)2,subject to j=1Nβj2t,

Ridge(L2-norm)和LASSO(L1-norm)比较

【机器学习】如何对抗过拟合(交叉验证与正则化)

  • Lasso的结果容易将系数减至0
  • Ridge则是减小至非0值

L2-norm中,由于对于各个维度的参数缩放是在一个圆内缩放的,不可能导致有维度参数变为0的情况,那么也就不会产生稀疏解;实际应用中,数据的维度中是存在噪声冗余的,稀疏的解可以找到有用的维度并且减少冗余,提高回归预测的准确性鲁棒性(减少了过拟合)

Ridge模型具有较高的准确性、鲁棒性以及稳定性;LASSO模型具有较高的求解释速度。

注:Python代码实现—–链接