统计学习方法(机器学习)—— 1、统计学习方法概要
统计学习方法概要
各部分关系图
模型选择——正则化与交叉验证
1、正则化
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大。正则化的一般形式:
这里的第一项是经验风险,第二项是正则化项。第一项经验风险较小的模型可能比较复杂(有多个非0参数),这时第二项模型复杂度就会高。正则化的作用就是选择经验风险与模型复杂度同时较小的模型。
比如,在回归问题中,损失函数是平方损失,正则化项可以是参数向量的范数,这里的表示参数向量的范数:
正则化项也可以是参数向量的范数,这里的表示参数向量的范数:
2、交叉验证
如果样本数据充足,可以将数据集切分成三部分:训练集、验证集、测试集,训练集用来训练模型,验证集用来模型的选择,测试集用于最终的评估。当数据不充足时,采用交叉验证,主要有以下三种:
- 简单交叉验证(一般三七开)
- S折交叉验证(S-1作为训练集,1作为测试集,重复S次)
- 留一交叉验证(缺乏数据时使用)