图像检索的评价指标
图像检索的评价指标
前提
首先需要一个表格说明TP,FP,FN和TN的概念:
标签 | 预测 | 结果 |
---|---|---|
P | P | True Posetive(TP) |
P | N | False Negative(FN) |
N | P | False Positive(FP) |
N | N | True Negative(TN) |
之前,常常在这边搞混,个人总结的分辨办法:
1、后一个word(Positive / Negative)指预测的结果;
2、前一个work(True / False)指预测与标签是否相同
Precision / Recall
precision:准确率,检索任务中既查准率;
recall:召回率,检索任务中既查全率。
precision
= TP /(TP + FP)
= 预测为正例且标签为正例的个数 / 预测为正例的个数
= (检索任务中)检索到为相似且标签为相似的个数 / 检索到为相似的个数
recall
= TP /(TP + FN)
= 预测为正例且标签为正例的个数 / 标签为正例的个数
= (检索任务中,对于)检索到为相似的个数 / 标签为相似的个数
准确率和召回率是相互影响的,一般情况下呈此消彼长状态;
对于不同任务,侧重点不同,个人认为
对于商品搜索任务,要尽量保证召回率的情况下提升准确率;
如果做非此即彼的任务,如疾病检测,要保证准确率的情况下提升召回率。
F1-score
对于准确率和召回率要求都高的情况下,可以用F1指标(F1-score)。
F1= 2 × P × R / (P + R)
mAP
借用别人的图片
原图地址:http://yongyuan.name/blog/evaluation-of-information-retrieval.html
上图中,average precision既为AP,mean average precision既为mAP;
需要注意的一点,若上图中第一例,返回的10张图片仅有3张为相似图片,求AP时底数仍为5.