数据挖掘知识点总结-三个率以及混淆矩阵

简介

学习数据挖掘的知识点总结。

正文

一、 混淆矩阵

在介绍各个率之前,先来介绍一下混淆矩阵。如果我们用的是个二分类的模型,那么把预测情况与实际情况的所有结果两两混合,结果就会出现以下 4 种情况,就组成了混淆矩阵。
数据挖掘知识点总结-三个率以及混淆矩阵

字母含义

  • T:Ture
  • F:False
  • P:Positive
  • N:Nagetive

四个组合的解释

  • TP:实际为真的结果预测为真
  • FP:实际为假的结果预测为真
  • FN:实际为真的结果预测为假
  • FP:实际为假的结果预测为假
    总结就是:前为真实,后为预测

二、三个率一条线

  1. 准确率
    既然是个分类指标,我们可以很自然的想到准确率(Accuracy),准确率的定义是预测正确的结果占总样本的百分比,其公式如下:
    准确率 =(TP+TN)/(TP+TN+FP+FN)
    数据挖掘知识点总结-三个率以及混淆矩阵
    虽然准确率可以判断总的正确率,但是在样本不平衡的情况下,并不能作为很好的指标来衡量结果。举个简单的例子,比如在一个总样本中,正样本占 90%,负样本占 10%,样本是严重不平衡的。对于这种情况,我们只需要将全部样本预测为正样本即可得到 90% 的高准确率,但实际上我们并没有很用心的分类,只是随便无脑一分而已。这就说明了:由于样本不平衡的问题,导致了得到的高准确率结果含有很大的水分。即如果样本不平衡,准确率就会失效。
    正因为如此,也就衍生出了其它两种指标:精准率召回率

  2. 精准率
    精准率(Precision)又叫查准率,它是针对预测结果而言的,它的含义是在所有被预测为正的样本中实际为正的样本的概率,意思就是在预测为正样本的结果中,我们有多少把握可以预测正确,其公式如下:
    精准率 =TP/(TP+FP)
    数据挖掘知识点总结-三个率以及混淆矩阵
    精准率和准确率看上去有些类似,但是完全不同的两个概念。精准率代表对正样本结果中的预测准确程度,而准确率则代表整体的预测准确程度,既包括正样本,也包括负样本。

  3. 召回率
    召回率(Recall)又叫查全率,书上又说是覆盖率,它是针对原样本而言的,它的含义是在实际为正的样本中被预测为正样本的概率,其公式如下:
    召回率 =TP/(TP+FN)
    数据挖掘知识点总结-三个率以及混淆矩阵

  4. 精准率和召回率的关系,F1 分数
    通过上面的公式,我们发现:精准率召回率的分子是相同,都是 TP,但分母是不同的,一个是**(TP+FP),一个是(TP+FN)**。两者的关系可以用一个 P-R 图来展示:
    数据挖掘知识点总结-三个率以及混淆矩阵
    相关链接

一文让你彻底理解准确率,精准率,召回率,真正率,假正率,ROC/AUC