Evaluating Models
文章目录
模型评价标准
根据任务类型的不同,模型评价指标可被分为三类:分类评价指标,回归评价指标,排序评价指标。
1.1 分类评价指标
1.1.1 准确率(Accuracy)
1.1.2 平均准确率(Average Per-class Accuracy)
由于样本不平衡可能性的存在,所以先求每个类别的准确率,再进行平均。
公式中的表示类别数。
1.1.3 对数损失函数(Log-loss)
当分类任务中的输出不是0-1,而是实数时,即输出属于类别的概率时,可以使用对数损失函数进行结果评估。
其中表示样本数,表示第个样本所属真实类别0或1,表示第个样本属于该类别的概率。
1.1.4 精确率-召回率(Precision-Recall)
精确率表示分类器分类正确的正样本数占分类器所有分类为正样本的样本数的百分比,公式如下:
其中,表示真实类别为正且被分类为正的样本数,表示真实类别为负但被错误分类为正的样本数。
召回率表示分类器分类正确的正样本数占任务中所有正样本数的百分比,公式如下:
其中,表示真实类别为正但被错误分类为负的样本数。
- F1-score:
- AUC(Area under the curve):
AUC即ROC曲线下的面积,TP率表示被正确分类的正样本占所有正样本的百分比,FP率表示被错误分类的负样本数占所有负样本的百分比,换句话说,TP率是正样本的正确率,FP率是负样本的错误率。(1,1)和(0,0)是极端情况,即保证正确率为1时将所有样本划分为正样本。
当使用ROC曲线对分类器进行评价时,如果对多个分类器进行比较时,如果直接使用ROC曲线很难去比较,只能通过将ROC分别画出来,然后进行肉眼比较,那么这种方法是非常不便的,因此我们需要一种定量的指标去比较,这个指标便是AUC了,即ROC曲线下的面积,面积越大,分类器的效果越好,AUC的值介于0.5到1.0之间。
1.1.5 混淆矩阵
混淆矩阵即用一个表格对分类任务中的不同情况进行记录,表格的第一列(第一行)表示样本的真实类别,表格第一行(第一列)则表示样本被预测的类别。,其余部分则是在不同情况下的样本数。2分类任务对应矩阵,n分类任务对应矩阵,具体见下图:
由混淆矩阵可以算出如下评价指标:
- 准确率:
- 平均准确率:
- 精确率:
- 召回率:
- F1-score
- TPR与FPR
1.2 回归评价指标
1.2.1 均方根误差(RMSE)
其中表示样本的实际值,表示样本的预测值,表示样本数。
均方根误差的缺陷在于它对异常点非常敏感,是非鲁棒性的。
1.2.2 相对误差的分位数(MAPE)
此处选用中位数为分位数,中位数无论最大值怎么变都不会被影响,对异常点具有鲁棒性。
平均绝对百分比误差的公式为:
求出所有样本的,然后求出这些的中位数。
1.2.3 “Almost correct” Predictions
先设定一个阈值,求出每个样本的相对误差,剔除大于阈值的样本;然后计算剩余样本的均方根误差或相对误差的分位数。
1.3 排序评价指标
1.3.1 精确率-召回率(Precision-Recall)
准确率:求出推荐系统推荐的top n项目中真正令用户感兴趣的项目个数占推荐项目数的百分比,将所有用户的该百分比求和再平均;
召回率:先求推荐系统推荐的top n项目中真正令用户感兴趣的项目个数占用户感兴趣的所有项目数的百分比,再将所有用户的该百分比求和再平均;
- F1-score:公式同上;
- NDCG:计算精确率与召回率时,考虑不同位置的项目具有不同的权值。
1.4 参考
机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱
分类 (Classification):ROC 和曲线下面积