对PR图的理解

在学习分类问题的性能度量中,提出了查准率P和查全率R两个概念,可以根据模型结果测算出P值和R值绘制PR曲线,那么PR曲线是怎么绘制出来的呢?
首先我们要理解分类结果混淆矩阵如下:
对PR图的理解
其中T=True表示真,F=False表示假,P=Positive表示正例,N=Negative表示反例。这样就可以定义查准率P=TP/TP+FP(准确性)和查全率R=TP/TP+FN(完整性)了。查全率和查准率也是此消彼长的。也即是说查全率越高,查准率越低。我们假设真实的正例数量为GP(Ground-truth Positive),真实的反例为GN(Ground-truth Negative),模型推断正例数量为SP(Suspicious-Positive),模型推断的反例数量为SN(Suspicious-Negative)那么我们可以由以下表达式:
GP+GN=SP+SNGP+GN = SP + SN
GP=TP+FNGP = TP + FN
GN=TN+FPGN = TN + FP
SP=TP+FPSP = TP + FP
SN=TN+FNSN = TN + FN
P=TP/(TP+FP)=TP/SPP = TP/(TP+FP)=TP/SP
R=PT/(TP+FN)=TP/GPR = PT/(TP+FN)=TP/GP
对PR图的理解
从上表我们可以看出,如果要判多更多的阳性(提高查全率R),就要进行更多的判断阳性次数(SP),边际收益的递减的,因此查准率(P)就会下降,这样可以简单的解释PR曲线反相关的原因。
对PR图的理解
我们通过实验可以做出PR曲线,然后找到P=R的点就是平衡点,我们可以通过平衡点来判断模型的好坏。

###补充说明###
为了形象地记忆,我们可以采用以下的记忆方法:
P:表示阳性,可以想象成男人
TP:表示看上去就是男人的男人,可以想象成直男(詹姆斯)
FN:表示看上去像女人的男人,可以想象成“娘炮”(朱正廷)
N:表示阴性,可以想象成“女人
TN:表示看上就是女人的女人,可以想象成“直女”(佟丽娅)
FP:表示看上去是男人的女人,可以想象成“假小子”(李宇春)
P= TP/TP+FP: 表示攻当中男人的比例“攻男率
tpr=TP/m+=TP/TP+FN=R:表示直男率
fpr=FP/m-=FP/FP+TN :表示“假小子率