过拟合与欠拟合

过拟合与欠拟合

过拟合:

一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,

此时认为这个假设出现了过拟合的现象。(模型过于复杂)

欠拟合:

一个假设在训练数据上不能获得更好的拟合, 但是在训练数据外的数据集上也不能很好地拟合数据,此时认为这

个假设出现了欠拟合的现象。(模型过于简单)

过拟合与欠拟合

欠拟合原因以及解决办法

原因:学习到数据的特征过少

解决办法:增加数据的特征数量

过拟合原因以及解决办法

原因:原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾各个测试数据点

解决办法:

进行特征选择,消除关联性大的特征(很难做)

交叉验证(让所有数据都有过训练)

正则化----尽量减小高次项特征的影响,使系数趋近于0

L2正则化

作用:可以使得W的每个元素都很小,都接近于0

优点:越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象