分类器性能的度量指标
1、通常我们把分类错误的样本数占样本总数的比例称为“错误率”(error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m;相应的,1-a/m称为“精度”(accuracy),即“精度=1一错误率”
2、正确率 = TP/(TP+FP)
召回率 = TP/(TP+FN)
假阳率 = FP/(FP+TN)
例如:
ROC与AUC
ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线,其横轴是“假正例率”(False Positive Rate,简称FPR),纵轴是“真正例率”(True Positive Rate,简称TRP),两者分别定义为:
ROC曲线给出的是当阈值变化时假阳率和真阳率的变化情况。左下角的点所对应的是将所有样例判为反例的情况,而右上角的点对应的则是将所有样例判为正例的情况。虚线给出的是随机猜测的结果曲线。
对不同的ROC曲线进行比较的一个指标是曲线下的面积(Area Unser the Curve)。AUC给出的是分类器的平均性能值,当然它并不能完全代替对整条曲线的观察。一个完美分类器的AUC为1.0,而随机猜测的AUC则为0.5。
3.4 均方误差
回归任务最常用的性能度量是“均方误差”(mean squared error)
处理非均衡分类的代价的方法(正负样本数目不一致)
1、调节分类器的阈值
2、代价敏感的学习
3、对分类器的训练数据进行改造(欠抽样或过抽样)