浅谈精准率、召回率和F值
最近team在做有关知识图谱的项目,个人负责的模块是文本图谱化,即输入一段文本,得到是对文本的图谱化展示。其中需要进行命名实体识别和关系抽取,评价指标是精确率、召回率和F值。随笔记录一下。
基本指标
真正类(TP):一个实例是正类,被预测成正类(正确的匹配数目)
真负类(TN):一个实例是负类,被预测成负类(正确的非匹配数目)
假正类(FP):一个实例是负类,被预测成正类(误报)
假负类(FN):一个实例是正类,被预测成负类(漏报)
精确率(Precision)
也叫查准率,表示的是预测为正的样本中有多少是真正的正样本。
精准率=系统检索到的相关文件 / 系统所有检索到的文件总数=TP/(TP+FP)
召回率(Recall Rate)
也叫查全率,表示的是样本中的正例有多少被预测正确了。
召回率=系统检索到的相关文件/系统所有相关的文件综述=TP/(TP+FN)
F值
F值为精确率和召回率的调和平均值
F值= 精确率 * 召回率 * 2 / (正确率 + 召回率)