数据挖掘知识点总结-三个率以及混淆矩阵
简介
学习数据挖掘的知识点总结。
正文
一、 混淆矩阵
在介绍各个率之前,先来介绍一下混淆矩阵。如果我们用的是个二分类的模型,那么把预测情况与实际情况的所有结果两两混合,结果就会出现以下 4 种情况,就组成了混淆矩阵。
字母含义
- T:Ture
- F:False
- P:Positive
- N:Nagetive
四个组合的解释
- TP:实际为真的结果预测为真
- FP:实际为假的结果预测为真
- FN:实际为真的结果预测为假
- FP:实际为假的结果预测为假
总结就是:前为真实,后为预测
二、三个率一条线
-
准确率
既然是个分类指标,我们可以很自然的想到准确率(Accuracy),准确率的定义是预测正确的结果占总样本的百分比,其公式如下:
准确率 =(TP+TN)/(TP+TN+FP+FN)
虽然准确率可以判断总的正确率,但是在样本不平衡的情况下,并不能作为很好的指标来衡量结果。举个简单的例子,比如在一个总样本中,正样本占 90%,负样本占 10%,样本是严重不平衡的。对于这种情况,我们只需要将全部样本预测为正样本即可得到 90% 的高准确率,但实际上我们并没有很用心的分类,只是随便无脑一分而已。这就说明了:由于样本不平衡的问题,导致了得到的高准确率结果含有很大的水分。即如果样本不平衡,准确率就会失效。
正因为如此,也就衍生出了其它两种指标:精准率和召回率。 -
精准率
精准率(Precision)又叫查准率,它是针对预测结果而言的,它的含义是在所有被预测为正的样本中实际为正的样本的概率,意思就是在预测为正样本的结果中,我们有多少把握可以预测正确,其公式如下:
精准率 =TP/(TP+FP)
精准率和准确率看上去有些类似,但是完全不同的两个概念。精准率代表对正样本结果中的预测准确程度,而准确率则代表整体的预测准确程度,既包括正样本,也包括负样本。 -
召回率
召回率(Recall)又叫查全率,书上又说是覆盖率,它是针对原样本而言的,它的含义是在实际为正的样本中被预测为正样本的概率,其公式如下:
召回率 =TP/(TP+FN) -
精准率和召回率的关系,F1 分数
通过上面的公式,我们发现:精准率和召回率的分子是相同,都是 TP,但分母是不同的,一个是**(TP+FP),一个是(TP+FN)**。两者的关系可以用一个 P-R 图来展示:
相关链接: