回归分析中产生过拟合的原因
例如以住房面积为自变量的函数来预测房价
1、如图:
使用一次函数 来预测时,从图中可以看出这不是一个很好的模型,没有很好的拟合训练集,导致出现"欠拟合"问题。
2、如图:
使用二次函数来拟合数据集,此时的拟合效果很好,没有出现问题。
3、如图:
本次使用四次函数来拟合数据集,此时可以得到一条如图中所示的曲线,这似乎很好的拟合了训练集,它通过了所有的数据点,但这其实并不是一个好的预测模型,这就是"过拟合"问题。
如果我们拟合一个高阶多项式,那这个假设函数能拟合几乎所有的数据,这就面临函数太过庞大,变量太多的问题,此时我们没有足够的数据来约束它,来获得一个好的假设函数。
过拟合问题会在变量过多的时候出现,而损失函数可能非常接近于0,它想方设法的拟合训练集中的所有数据,导致它无法泛化到新样本中去,不能预测样本的价格。
解决过拟合问题有两种方法:
1、尽量减少选取变量的数量,通过人工选择应该留下的特征变量,而模型选择算法就可以自动选择哪些特征变量要保留,哪些要舍弃。
优点:效率很好
缺点:舍弃一部分特征变量的同时也舍弃了关于问题的一部分信息。
2、正则化惩罚,保留了所有的特征变量,但减少了量级或参数的大小。
优点:效果非常好,使用了所有的特征变量,每个特征变量都能对预测的 y 值产生一点影响。