机器学习的评估方法和度量指标

一、评估方法

以什么样方式进行评估,获取可靠的测试集数据,测试集数据与训练集数据互斥,测试数据不能用于参数调优。
常见方法:留出法,k折交叉验证,自助法(bootstrap)

1.留出法

将全量数据集分为训练集和测试集;即是留出一部分做测试集;测试集和训练集互斥,测试集不能用于参数的调优
机器学习的评估方法和度量指标

注意点

  1. 保持数据的分布一致性 ,即是让测试集和训练集样本分布保持一致(类别占比),可以采用分层抽样的方式达到;
  2. 多次重复划分(例如:100次随机划分);
  3. 测试集不能太大、不能太小,例如:1/5 ~1/3 ;

2. k折交叉验证

将样本分为K部分,轮番的用其中的k-1折用作训练,剩余1折用作测试,然后把最终的结果求平均,返回最终的结果。
机器学习的评估方法和度量指标

3.自助法(bootstrap)

有放回的方式进行采样,从样本集中抽取出和原始样本一样数据量大小的数据做训练,没有出现的做测试集
机器学习的评估方法和度量指标

二、 机器学习的评估度量标准

1.回归场景

机器学习的评估方法和度量指标
机器学习的评估方法和度量指标

2.分类场景

机器学习的评估方法和度量指标
机器学习的评估方法和度量指标
机器学习的评估方法和度量指标

机器学习的评估方法和度量指标