ROC曲线 vs Precision-Recall曲线

ROC曲线的优势
　　ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持稳定。在实际的数据集中经常会出现类不平衡现象，而且测试数据中的正负样本的分布也可能随着时间变化。下图是ROC曲线和Precision-Recall曲线的对比。

其中(a)和©为ROC曲线，(b)和(d)为Precision-Recall曲线。(a)和(b)展示的是分类器在原始测试集（正负样本分布平衡）的结果，©和(d)是将测试集中负样本的数量增加到原来的10倍。可以明显看出，ROC曲线基本保持原貌，而Precision-Recall曲线则变化较大。

PR曲线会面临一个问题，当需要获得更高recall时，model需要输出更多的样本，precision可能会伴随出现下降/不变/升高，得到的曲线会出现浮动差异（出现锯齿），无法像ROC一样保证单调性。所以，对于正负样本分布大致均匀的问题，ROC曲线作为性能指标更鲁棒。
　　 ROC曲线 vs Precision-Recall曲线
　　 PRC曲线的优势
　　在正负样本分布得极不均匀(highly skewed datasets)，负例远大于正例时，并且这正是该问题正常的样本分布时，PRC比ROC能更有效地反应分类器的好坏，即PRC曲线在正负样本比例悬殊较大时更能反映分类的真实性能。例如上面的©(d)中正负样本比例为1:10，ROC效果依然看似很好，但是PR曲线则表现的比较差。举个例子，
　　 ROC曲线 vs Precision-Recall曲线
　　　单从图（a）看，这两个分类器都比较完美(非常接近左上角)。而从图（b）可以看出，这两个分类器仍有巨大的提升空间。那么原因是什么呢？通过看Algorithm1的点 A，可以得出一些结论。首先图（a）和（b中）的点A是相同的点，因为TPR就是Recall，两者是一样的。

假设数据集有100个正样本。可以得到以下结论：

由图（a）点A，可得：TPR=TP/(TP+FN)=TP/所有正样本 =TP/100=0.8，所以TP=80。

由图（b）点A，可得：Precision=TP/(TP+FP)=80/(80+FP)=0.05，所以FP=1520。

再由图（a）点A，可得：FPR=FP/(FP+TN)=FP/所有负样本=1520/所有负样本=0.1，所以负样本数量是15200。

由此，可以得出原数据集中只有100个正样本，却有15200个负样本！这就是极不均匀的数据集。直观地说，在点A处，分类器将1600 (1520+80)个样本预测为positive，而其中实际上只有80个是真正的positive。我们凭直觉来看，其实这个分类器并不好。但由于真正negative instances的数量远远大约positive，ROC的结果却“看上去很美”，因为这时FPR因为负例基数大的缘故依然很小。所以，在这种情况下，PRC更能体现本质。

ROC曲线与PRC曲线表现差异的原因
　　为什么会有上面分析到的两者差异呢？下面摘自引用[1]的解释很清楚，FPR 和 TPR (Recall) 只与真实的正例或负例中的一个相关（可以从他们的计算公式中看到），而其他指标如Precision则同时与真实的正例与负例都有关，即下面文字说的“both columns”，这可以结合混淆矩阵和各指标的计算公式明显看到。
　　 ROC曲线 vs Precision-Recall曲线
　　思考
1、ctr预估显然是负例远多于正例，那为什么业界还普遍用ROC曲线而不是PRC曲线下的面积作为性能指标？

思考：

我的思考是，对于ctr预估这个问题，我们需要一个于排序强相关的衡量指标，ROC与PRC都可以，而上面介绍了相比PRC，ROC具有鲁棒性的优势。ROC的缺点是对于ctr这种负例远多于正例的问题，其显示的图像和对应的AUC过于“乐观”，不能很好地反映分类器的真实性能，这意味着，即使算法的AUC约为0.8，看起来已经是一个比较好的值的，算法性能应该很不错，但是PRC曲线告诉我们，还没得很呢，还有很大提升空间。

但是，对于ctr问题本身而言，AUC的高低确实可以衡量两个算法的性能优劣，算法A的AUC大于算法B，那么绝大部分情况下可以认为算法A优于算法B，即以AUC为指标进行模型的快速迭代和选择依然是合理的。

另外很重要的一点是，相比于PRC曲线下的面积计算，AUC的计算更容易。

2、随机猜测的PRC曲线是怎么样的？

ROC曲线 vs Precision-Recall曲线

相关推荐