分类器性能的度量指标

1、通常我们把分类错误的样本数占样本总数的比例称为“错误率”(error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m;相应的,1-a/m称为“精度”(accuracy),即“精度=1一错误率”

 

2、正确率 = TP/(TP+FP)

     召回率 = TP/(TP+FN)

     假阳率 = FP/(FP+TN)

分类器性能的度量指标

例如:

分类器性能的度量指标

ROC与AUC

ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线,其横轴是“假正例率”(False Positive Rate,简称FPR),纵轴是“真正例率”(True Positive Rate,简称TRP),两者分别定义为:

                                                                                 分类器性能的度量指标

                                                       分类器性能的度量指标

ROC曲线给出的是当阈值变化时假阳率和真阳率的变化情况。左下角的点所对应的是将所有样例判为反例的情况,而右上角的点对应的则是将所有样例判为正例的情况。虚线给出的是随机猜测的结果曲线。 

对不同的ROC曲线进行比较的一个指标是曲线下的面积(Area Unser the Curve)。AUC给出的是分类器的平均性能值,当然它并不能完全代替对整条曲线的观察。一个完美分类器的AUC为1.0,而随机猜测的AUC则为0.5。 

3.4 均方误差

回归任务最常用的性能度量是“均方误差”(mean squared error)

分类器性能的度量指标

 

处理非均衡分类的代价的方法(正负样本数目不一致)

1、调节分类器的阈值

2、代价敏感的学习

3、对分类器的训练数据进行改造(欠抽样或过抽样)