机器学习过拟合的原因和解决办法

一、什么是过拟合
1、泛化能力差
     低 Ein,高Eout。
2、泛化能力差和过拟合

机器学习过拟合的原因和解决办法     

泛化能力差:(E_out−E_in) 很大
过拟合:E_in↓,E_out↑
欠拟合:E_in↑,E_out↓
3、过拟合的原因
     ①使用过多的d_vc  (即使用的模型的复杂度过高)
     ②噪声
     ③数据有限


二、噪声和数据集尺寸的角色
机器学习过拟合的原因和解决办法

复杂度越高的模型,当数据量越小,N→∞。灰色部分表示过拟合。


三、确定性噪声
1、过拟合的衡量
      (1)高斯噪声的影响,δ^2 表示方差【随机噪声】

   机器学习过拟合的原因和解决办法   

   (2)确定性噪声

机器学习过拟合的原因和解决办法


严重过拟合的原因:
数据集尺寸N ↓         过拟合↑
随机噪声↑           过拟合↑
确定性噪声↑         过拟合↑
使用的模型复杂度↑ 过拟合↑

四、过拟合的解决方法
1、可能的解决途径
    ①从简单的模型开始
    ②数据清理/修剪
    ③提供额外的提示
    ④正则化
    ⑤验证