机器学习笔记--查准率precision和查全率recall、F1
真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative),分别用TP、FP、TN、FN表示相应样例数,样例总数=TP+FP+TN+FN;分类结果混淆矩阵:
真实情况 |
预测结果 |
|
正例 |
反例 |
|
正例 |
TP(真正例) |
FN(假反例) |
反例 |
FP(假正例) |
TN(真反例) |
查准率(precision):被认定为正例的里面,判断正确的比例。
查全率(recall):真实正例里,被判断出为正例的比例。
查准率和查全率是一对矛盾的度量.一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低,可以通过P-R曲线来取两者的平衡值
若一个学习器P-R曲线被另一个学习器的曲线完全"包住",则可断言后者的性能优于前者, 例如图中学习器A 的性能优于学习器C; 如果两个学习器的P-R 曲线发生了交叉7,例如图中的A 与B ,则难以一般性地断言两者孰优孰劣,只能在具体的查准率或查全率条件下进行比较然而,在很多情形下,人们往往仍希望把学习器A 与B 比出个高低. 这时一个比较合理的判据是比较P-R 曲线节面积的大小。
"平衡点"是"查准率=查全率"时的取值。
但更常用的使用F1来衡量查准率与查全率;
F1基于查准率与查全率的调和平均:
sum为样例总数,
具体应用中可能对P和R有不同的倚重。比如商品推荐中,为了尽可能少打扰用户,更希望推荐内容确是用户感兴趣的,这时候查准率更重要。而在逃犯检索系统中,更希望尽可能少漏掉逃犯,此时查全率更重要。
F1度量的一般形式Fβ(加权调和平均)就可以表达这种偏好。
即
ß = 1时退化为标准的F1,当β>1意味着P占比重更大,反之则是R。