图像检索的评价指标

前提
Precision / Recall
F1-score
mAP

前提

首先需要一个表格说明TP，FP，FN和TN的概念：

标签	预测	结果
P	P	True Posetive（TP）
P	N	False Negative（FN）
N	P	False Positive（FP）
N	N	True Negative（TN）

之前，常常在这边搞混，个人总结的分辨办法：
1、后一个word（Positive / Negative）指预测的结果；
2、前一个work（True / False）指预测与标签是否相同

Precision / Recall

precision：准确率，检索任务中既查准率；
recall：召回率，检索任务中既查全率。
precision
= TP /（TP + FP）
= 预测为正例且标签为正例的个数 / 预测为正例的个数
= （检索任务中）检索到为相似且标签为相似的个数 / 检索到为相似的个数
recall
= TP /（TP + FN）
= 预测为正例且标签为正例的个数 / 标签为正例的个数
= （检索任务中，对于）检索到为相似的个数 / 标签为相似的个数

准确率和召回率是相互影响的，一般情况下呈此消彼长状态；
对于不同任务，侧重点不同，个人认为
对于商品搜索任务，要尽量保证召回率的情况下提升准确率；
如果做非此即彼的任务，如疾病检测，要保证准确率的情况下提升召回率。

F1-score

对于准确率和召回率要求都高的情况下，可以用F1指标（F1-score）。
F1= 2 × P × R / (P + R)

mAP

借用别人的图片
原图地址：http://yongyuan.name/blog/evaluation-of-information-retrieval.html
图像检索的评价指标
上图中，average precision既为AP，mean average precision既为mAP；
需要注意的一点，若上图中第一例，返回的10张图片仅有3张为相似图片，求AP时底数仍为5.

图像检索的评价指标