回归分析中产生过拟合的原因

例如以住房面积为自变量的函数来预测房价

1、如图:

回归分析中产生过拟合的原因
    使用一次函数  θ0+θ1x ~\theta_0+\theta_1x~ 来预测时,从图中可以看出这不是一个很好的模型,没有很好的拟合训练集,导致出现"欠拟合"问题。

2、如图:

回归分析中产生过拟合的原因
    使用二次函数 θ0+θ1x+θ2x2 ~\theta_0+\theta_1x+\theta_2x^2~来拟合数据集,此时的拟合效果很好,没有出现问题。

3、如图:

回归分析中产生过拟合的原因
    本次使用四次函数 θ0+θ1x+θ2x2 +θ3x3+θ4x4~\theta_0+\theta_1x+\theta_2x^2~+\theta_3x^3+\theta_4x^4来拟合数据集,此时可以得到一条如图中所示的曲线,这似乎很好的拟合了训练集,它通过了所有的数据点,但这其实并不是一个好的预测模型,这就是"过拟合"问题。

    如果我们拟合一个高阶多项式,那这个假设函数能拟合几乎所有的数据,这就面临函数太过庞大,变量太多的问题,此时我们没有足够的数据来约束它,来获得一个好的假设函数。

    过拟合问题会在变量过多的时候出现,而损失函数可能非常接近于0,它想方设法的拟合训练集中的所有数据,导致它无法泛化到新样本中去,不能预测样本的价格。

解决过拟合问题有两种方法:

    1、尽量减少选取变量的数量,通过人工选择应该留下的特征变量,而模型选择算法就可以自动选择哪些特征变量要保留,哪些要舍弃。
    优点:效率很好
    缺点:舍弃一部分特征变量的同时也舍弃了关于问题的一部分信息。

    2、正则化惩罚,保留了所有的特征变量,但减少了量级或参数  θj~~\theta_j的大小。
    优点:效果非常好,使用了所有的特征变量,每个特征变量都能对预测的 y 值产生一点影响。