《统计学习方法》学习笔记(2)——模型评估与模型选择

本文主要参考书籍为《统计学习方法》(李辉),第一章 统计学习方法概论。

目录

1.4 模型评估与模型选择

1.4.1 训练误差&测试误差

1.4.2 过拟合与模型选择

1.5 正则化与交叉验证——防止过拟合

1.5.1 正则化

1.5.2 交叉验证

1.5.2.1 数据集样本数据充足时

1.5.2.2 数据集样本数据不充足时——交叉验证


1.4 模型评估与模型选择

1.4.1 训练误差&测试误差

《统计学习方法》学习笔记(2)——模型评估与模型选择

测试误差反映的是模型对未知数据集的预测能力,更为重要。

1.4.2 过拟合与模型选择

解决过拟合问题的步骤:

1)确定模型复杂度,即多项式的次数

2)按照风险最小化从策略,求解参数,即最小化:

《统计学习方法》学习笔记(2)——模型评估与模型选择,其中1/2是为了计算方便的系数。

3)将模型代入:

《统计学习方法》学习笔记(2)——模型评估与模型选择

4)

《统计学习方法》学习笔记(2)——模型评估与模型选择

《统计学习方法》学习笔记(2)——模型评估与模型选择

1.5 正则化与交叉验证——防止过拟合

1.5.1 正则化

《统计学习方法》学习笔记(2)——模型评估与模型选择

贝叶斯的角度来看,正则化对应于模型中的先验概率

1.5.2 交叉验证

1.5.2.1 数据集样本数据充足时

可以随机地将数据集分为三个部分:

1)训练集:训练模型

2)验证集:模型的选择

3)测试集:最终对学习方法的评估

1.5.2.2 数据集样本数据不充足时——交叉验证

交叉验证的基本思想是重复的使用数据

1)简单交叉验证

《统计学习方法》学习笔记(2)——模型评估与模型选择

2)S折交叉验证

《统计学习方法》学习笔记(2)——模型评估与模型选择

3)留一交叉验证

《统计学习方法》学习笔记(2)——模型评估与模型选择