评估模型性能方法--数据分割
1 保持方法
把原有数据集划分成训练集以及测试集(验证集)
在训练集上训练之后在测试集上评估,
局限在于数据集太少,训练模型欠拟合以及测试集估计不准确
2 k-折交叉验证
将数据集划分为k组,k-1作为训练集,1作为测试集,k轮循环之后k的模型的测试结果的误差平均值作为评价模型的性能指标。(类似于模型融合的数据集角度)
优点:
信息充分利用
使用同样的算法,计算方便
精度为平均值,精度提升
留一法:循环N次,测试集只有一个样本
3 自助法
有放回的抽样m个样本形成训练集,没有进入训练集的是测试集,m趋向于无穷的时候,训练集样本大小是原数据集的63.2%
数据分割总结
数据集规模 | 策略 |
---|---|
较大 | 训练集2/3 |
较小 | k-fold validation |
非常小 | 留一法 |