您的位置: 首页 > 文章 > 模型评估与选择--交叉验证学习和 scikit-learn交叉验证

模型评估与选择--交叉验证学习和 scikit-learn交叉验证

分类: 文章 • 2024-07-14 20:10:22

交叉验证：重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。交叉验证用在数据不是很充足的时候。

交叉验证的作用

交叉验证用于评估模型的预测性能，尤其是训练好的模型在新数据上的表现，可以在一定程度上减小过拟合
可以从有限的数据中获取尽可能多的有效信

交叉验证常见形式

简单交叉验证：随机的将样本数据分为两部分（比如： 70%的训练集，30%的测试集），然后用训练集来训练模型，在测试集上验证模型及参数。接着，我们再把样本打乱，重新选择训练集和测试集，继续训练数据和检验模型。最后我们选择损失函数评估最优的模型和参数。

S折交叉验证（s-fold cross validation）:S折交叉验证会把样本数据随机的分成S份，每次随机的选择S-1份作为训练集，剩下的1份做测试集。当这一轮完成后，重新随机选择S-1份来训练数据。若干轮（小于S）之后，选择损失函数评估最优的模型和参数。

模型评估与选择--交叉验证学习和 scikit-learn交叉验证

留一交叉验证(leave-one-out cross validation):它是第二种情况的特例，此时S等于样本数N，这样对于N个样本，每次选择N-1个样本来训练数据，留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况，比如对于普通适中问题，N小于50时，我一般采用留一交叉验证。

参考文献：

https://www.cnblogs.com/pinard/p/5992719.html，

http://scikit-learn.org/stable/modules/cross_validation.html，

https://blog.****.net/aliceyangxi1987/article/details/73532651，

http://www.csuldw.com/2015/07/28/2015-07-28%20crossvalidation/