对PR图的理解

在学习分类问题的性能度量中，提出了查准率P和查全率R两个概念，可以根据模型结果测算出P值和R值绘制PR曲线，那么PR曲线是怎么绘制出来的呢？
首先我们要理解分类结果混淆矩阵如下：
对PR图的理解
其中T=True表示真，F=False表示假，P=Positive表示正例，N=Negative表示反例。这样就可以定义查准率P=TP/TP+FP（准确性）和查全率R=TP/TP+FN（完整性）了。查全率和查准率也是此消彼长的。也即是说查全率越高，查准率越低。我们假设真实的正例数量为GP(Ground-truth Positive)，真实的反例为GN(Ground-truth Negative)，模型推断正例数量为SP(Suspicious-Positive)，模型推断的反例数量为SN(Suspicious-Negative)那么我们可以由以下表达式：
$GP+GN = SP + SN$
$GP = TP + FN$
$GN = TN + FP$
$SP = TP + FP$
$SN = TN + FN$
$P = TP/(TP+FP)=TP/SP$
$R = PT/(TP+FN)=TP/GP$
对PR图的理解
从上表我们可以看出，如果要判多更多的阳性（提高查全率R），就要进行更多的判断阳性次数（SP），边际收益的递减的，因此查准率（P）就会下降，这样可以简单的解释PR曲线反相关的原因。

我们通过实验可以做出PR曲线，然后找到P=R的点就是平衡点，我们可以通过平衡点来判断模型的好坏。

###补充说明###
为了形象地记忆，我们可以采用以下的记忆方法：
P：表示阳性，可以想象成男人
TP：表示看上去就是男人的男人，可以想象成直男（詹姆斯）
FN：表示看上去像女人的男人，可以想象成“娘炮”（朱正廷）
N：表示阴性，可以想象成“女人”
TN：表示看上就是女人的女人，可以想象成“直女”（佟丽娅）
FP：表示看上去是男人的女人，可以想象成“假小子”（李宇春）
P= TP/TP+FP: 表示攻当中男人的比例“攻男率”
tpr=TP/m+=TP/TP+FN=R：表示直男率
fpr=FP/m-=FP/FP+TN :表示“假小子率”

相关推荐