统计学习方法(机器学习)—— 1、统计学习方法概要

统计学习方法概要


各部分关系图

统计学习方法(机器学习)—— 1、统计学习方法概要


模型选择——正则化与交叉验证

1、正则化

        正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大。正则化的一般形式:
统计学习方法(机器学习)—— 1、统计学习方法概要
        这里的第一项是经验风险,第二项是正则化项。第一项经验风险较小的模型可能比较复杂(有多个非0参数),这时第二项模型复杂度就会高。正则化的作用就是选择经验风险与模型复杂度同时较小的模型
        比如,在回归问题中,损失函数是平方损失,正则化项可以是参数向量的L2L_2范数,这里的w||w||表示参数向量wwL2L_2范数:
统计学习方法(机器学习)—— 1、统计学习方法概要
        正则化项也可以是参数向量的L1L_1范数,这里的w1||w||_1表示参数向量wwL1L_1范数:
统计学习方法(机器学习)—— 1、统计学习方法概要

2、交叉验证

        如果样本数据充足,可以将数据集切分成三部分:训练集、验证集、测试集,训练集用来训练模型,验证集用来模型的选择,测试集用于最终的评估。当数据不充足时,采用交叉验证,主要有以下三种:

  • 简单交叉验证(一般三七开)
  • S折交叉验证(S-1作为训练集,1作为测试集,重复S次)
  • 留一交叉验证(缺乏数据时使用)