Lecture 15 :Validation
Lecture 15 :Validation
【参考】https://redstonewill.com/255/
【概括】
- 本节课主要介绍了Validation验证。先从如何选择一个好的模型开始切入,例如使用Ein、Etest都是不太好的,最终使用Eval来进行模型选择。
- 然后详细介绍了Validation的过程。
- 最后,介绍了Leave-One-Out和V-Fold Cross两种验证方法,比较它们各自的优点和缺点,实际情况下,V-Fold Cross更加常用。
15.1 Model Selection Problem
机器学习模型建立的过程中有许多选择
不同的选择搭配,有不同的机器学习效果。我们的目标就是找到最合适的选择搭配,得到一个好的矩g,构建最佳的机器学习模型。
使用Ein:对未知数据并不一定泛化能力好
使用Etest:测试集未知,不好
15.2 Validation
15.3 Leave-One-Out Cross Validation
很明显可以看出,使用Ein发生了过拟合,而Eloocv分类效果更好,泛化能力强。
15.5 V-Fold Cross Validation
针对Leave-One-Out的缺点,我们对其作出了改进。Leave-One-Out是将N个数据分成N分,那么改进措施是将N个数据分成V份(例如V=10),计算过程与Leave-One-Out相似。这样可以减少总的计算量,又能进行交叉验证,得到最好的矩,这种方法称为V-折交叉验证。其实Leave-One-Out就是V-折交叉验证的一个极端例子。
一般的Validation使用V-折交叉验证来选择最佳的模型。值得一提的是Validation的数据来源也是样本集中的,所以并不能保证交叉验证的效果好,它的模型一定好。只有样本数据越多,越广泛,那么Validation的结果越可信,其选择的模型泛化能力越强。