模型评估与选择--交叉验证学习和 scikit-learn交叉验证

交叉验证:重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。交叉验证用在数据不是很充足的时候。


交叉验证的作用

  • 交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合
  • 可以从有限的数据中获取尽可能多的有效信

交叉验证常见形式

  • 简单交叉验证:随机的将样本数据分为两部分(比如: 70%的训练集,30%的测试集),然后用训练集来训练模型,在测试集上验证模型及参数。接着,我们再把样本打乱,重新选择训练集和测试集,继续训练数据和检验模型。最后我们选择损失函数评估最优的模型和参数。 

 

  • S折交叉验证(s-fold cross validation):S折交叉验证会把样本数据随机的分成S份,每次随机的选择S-1份作为训练集,剩下的1份做测试集。当这一轮完成后,重新随机选择S-1份来训练数据。若干轮(小于S)之后,选择损失函数评估最优的模型和参数。

模型评估与选择--交叉验证学习和 scikit-learn交叉验证

  • 留一交叉验证(leave-one-out cross validation):它是第二种情况的特例,此时S等于样本数N,这样对于N个样本,每次选择N-1个样本来训练数据,留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况,比如对于普通适中问题,N小于50时,我一般采用留一交叉验证。

 

 

参考文献:

https://www.cnblogs.com/pinard/p/5992719.html

http://scikit-learn.org/stable/modules/cross_validation.html

https://blog.****.net/aliceyangxi1987/article/details/73532651

http://www.csuldw.com/2015/07/28/2015-07-28%20crossvalidation/