Lecture 15 :Validation

Lecture 15 :Validation

【参考】https://redstonewill.com/255/
【概括】

  1. 本节课主要介绍了Validation验证。先从如何选择一个好的模型开始切入,例如使用Ein、Etest都是不太好的,最终使用Eval来进行模型选择。
  2. 然后详细介绍了Validation的过程。
  3. 最后,介绍了Leave-One-Out和V-Fold Cross两种验证方法,比较它们各自的优点和缺点,实际情况下,V-Fold Cross更加常用。

15.1 Model Selection Problem

机器学习模型建立的过程中有许多选择
Lecture 15 :Validation
不同的选择搭配,有不同的机器学习效果。我们的目标就是找到最合适的选择搭配,得到一个好的矩g,构建最佳的机器学习模型。

使用Ein:对未知数据并不一定泛化能力好
使用Etest:测试集未知,不好
Lecture 15 :Validation

Lecture 15 :Validation

15.2 Validation
Lecture 15 :Validation

Lecture 15 :Validation
Lecture 15 :Validation
Lecture 15 :Validation

Lecture 15 :Validation

15.3 Leave-One-Out Cross Validation

Lecture 15 :Validation

Lecture 15 :Validation

很明显可以看出,使用Ein发生了过拟合,而Eloocv分类效果更好,泛化能力强。

15.5 V-Fold Cross Validation

针对Leave-One-Out的缺点,我们对其作出了改进。Leave-One-Out是将N个数据分成N分,那么改进措施是将N个数据分成V份(例如V=10),计算过程与Leave-One-Out相似。这样可以减少总的计算量,又能进行交叉验证,得到最好的矩,这种方法称为V-折交叉验证。其实Leave-One-Out就是V-折交叉验证的一个极端例子。
Lecture 15 :Validation
一般的Validation使用V-折交叉验证来选择最佳的模型。值得一提的是Validation的数据来源也是样本集中的,所以并不能保证交叉验证的效果好,它的模型一定好。只有样本数据越多,越广泛,那么Validation的结果越可信,其选择的模型泛化能力越强。