过拟合与欠拟合
学习机器学习遇到了过拟合和欠拟合这两个名词,不是很理解,于是上网查了一下资料,先看一个图:
通过图片可以看出,将数据分为训练集和测试集,如果训练集训练的模型没有很好的表现数据的特点(可能是由于选取的特征太少或者选的特征不具代表性),这叫做欠拟合。过拟合则相反,训练集训练的模型太过仔细而导致在对测试集进行预测的时候表现不佳,叫过过拟合。
可以通过交叉验证来判断欠拟合和过拟合:
欠拟合:训练集和测试集结果都不好
过拟合:训练集很好,测试集不好
如何解决过拟合:
正则化:通过不断尝试,把高次项系数降到0,看效果
岭回归正是利用正则化来解决过拟合问题,通过一个正则化力度alpha,来减少权重趋近于0。