性能度量

给定一组待测试的样本,该样本数据共有NN个,其中p|p|个正样本,n|n|个负样本,经训练模型测试后,预测出ep|ep|个正例,en|en|个负例。

1. Accuracy

准确率代表了预测准确的样本个数;
TP=pep      TN=nenTP = |p\cap ep|\ \ \ \ \ \ TN = |n\cap en|
Accuracy=TP+TNNAccuracy = \frac{TP+TN}{N}
准确率在样本分布不均衡时,无法较好地衡量该模型的好坏。

2. Precision, Recall

查准率(precisionprecision)是指在预测出的正结果中,有多少是正确的;
FP=eppepFP = |ep-p\cap ep|
precision=TPep=TPFP+TPprecision = \frac{TP}{|ep|}=\frac{TP}{FP+TP}
查全率(recallrecall)是指在所有的正样本中,有多少被准确预测出来;
FN=ppepFN = |p-p\cap ep|
recall=TPp=TPFN+TPrecall=\frac{TP}{|p|}=\frac{TP}{FN+TP}
将模型预测的结果进行排序,按顺序逐个把样本作为正例进行预测,每次都可得到当前预测结果下的presicionpresicionrecallrecall,然后以presicionpresicionrecallrecall为纵横坐标轴,就可画出P-R曲线。

3. 真正率(TPR), 假正率(FPR)

真正率指在所有的正样本中,被准确预测出来为正的样本有多少,也就是,查全率;
TPR=TPFN+TPTPR=\frac{TP}{FN+TP}
假正率指在所有的负样本中,被预测出为正的样本有多少。
TN=nenTN = |n\cap en|
TPR=TPFP+TNTPR=\frac{TP}{FP+TN}
将模型预测的结果进行排序,按顺序逐个把样本作为正例进行预测,每次都可得到当前预测结果下的TPRTPRFPRFPR,然后以TPRTPRFPRFPR为纵横坐标轴,就可画出ROC曲线,曲线下的面积就是AUC。

4. 看图理解

性能度量