p-r曲线和roc曲线

1.混淆矩阵

p-r曲线和roc曲线

这是一个二分类问题的混淆矩阵,横纵坐标分别为预测和实际分类类别。二分类问题的混淆矩阵有四个可能的预测结果分别为真正例(TP)/假正例(FP)/假反例(FN)/真反例(TN)。

2.P-R曲线

首先引入两个概念R-查全率(召回率)和P-查准率(准确率)
P = TP / (TP+FP)
R = TP / (TP+FN)
查准率即是指所有预测为真的样本中实际为真的比例,查全率即是指实际为真的样本中有多少被预测为真。
我们希望模型拥有很高的P时R也很高,但这在大多数情况下是做不到的,此时如何来判别两个模型的预测结果的好坏呢,这就是P-R曲线的作用。
将模型按预测为真的概率从小到大排列,选取不同的划分点,划分点左边为负例,右边为正例。每一个划分点都得到一组P/R。将每组PR值放到P-R坐标系就可以拟合出一条P-R曲线。
p-r曲线和roc曲线
如图,P-R曲线包围的面积越大,则模型越好。当面积差不多时,P = R的点(平衡点)值越大则模型越好

3.ROC曲线

引入概念TPR(真正例率)和FPR(假正例率)
TPR = TP / (TP+FN)
FPR = FP / (TN+FP)
TPR即实际为真的样本中预测为真的比例,FPR即实际为假的样本中预测为真的比例
同P-R曲线一样,将TPR和FPR绘制到坐标系得到ROC曲线,如图
p-r曲线和roc曲线
ROC曲线的线下面积即AUC,AUC越大模型越好