机器学习的评估方法和度量指标
机器学习的评估方法和度量指标
一、评估方法
以什么样方式进行评估,获取可靠的测试集数据,测试集数据与训练集数据互斥,测试数据不能用于参数调优。
常见方法:留出法,k折交叉验证,自助法(bootstrap)
1.留出法
将全量数据集分为训练集和测试集;即是留出一部分做测试集;测试集和训练集互斥,测试集不能用于参数的调优
注意点
- 保持数据的分布一致性 ,即是让测试集和训练集样本分布保持一致(类别占比),可以采用分层抽样的方式达到;
- 多次重复划分(例如:100次随机划分);
- 测试集不能太大、不能太小,例如:1/5 ~1/3 ;
2. k折交叉验证
将样本分为K部分,轮番的用其中的k-1折用作训练,剩余1折用作测试,然后把最终的结果求平均,返回最终的结果。
3.自助法(bootstrap)
有放回的方式进行采样,从样本集中抽取出和原始样本一样数据量大小的数据做训练,没有出现的做测试集