准确率(Accuracy),精确率(Precision)和召回率(Recall)

 首先区分下准确率(Accuracy)和精确率(又叫精度,Precision)的概念,如下是wiki给出的解释,文中的ISO就是国际标准化组织。

Precision is a description of random errors, a measure of statistical variability.

Accuracy has two definitions:

  1. More commonly, it is a description of systematic errors, a measure of statistical bias; as these cause a difference between a result and a "true" value, ISO calls this trueness.
  2. Alternatively, ISO defines accuracy as describing a combination of both types of observational error above (random and systematic), so high accuracy requires both high precision and high trueness.

  对上述的理解,简言之,是对于一组重复测量的数据,若测量值接近,则测量值被认为是精确的;若测量值的平均值接近数据的真实值,则测量值被认为是准确的。所以这两个概念是独立的,同一组数据既可以可以被认为是准确的或精确的,或者两者都满足,或者都不满足。

 《统计学习方法》中指出,分类准确率(Accuracy)的定义:对于给定的测试数据集,分类器正确分类的样本数与总样本数比。对于二分类问题,常用的评价指标是精确率(Precision)和召回率(Recall)。后文也将以二分类为例介绍精确率和召回率的计算公式。

 首先展示下两个概念的理解图例。

准确率(Accuracy),精确率(Precision)和召回率(Recall)

 对于二分类而言,正类是关注的类别,负类是其他类别。分类器对于测试数据集预测的正确与否分为四种情况,进一步得到精确率和召回率的计算公式。

TP—将正类预测为正类的样本数 (真的正类)

FP将负类预测为正类的样本数 (假的正类)

FN—将正类预测为负类的样本数 (假的负类)

TN—将负类预测为负类的样本数 (真的负类)

准确率(Accuracy),精确率(Precision)和召回率(Recall)

上表顺序对应信息检索、分类、识别、翻译等领域关于召回率(查全率)和准确率(查准率)的图例。

准确率(Accuracy),精确率(Precision)和召回率(Recall)

参考文献:

  1. https://en.wikipedia.org/wiki/Accuracy_and_precision
  2. 李航 《统计学习方法》