简介

学习数据挖掘的知识点总结。

正文

一、混淆矩阵

在介绍各个率之前，先来介绍一下混淆矩阵。如果我们用的是个二分类的模型，那么把预测情况与实际情况的所有结果两两混合，结果就会出现以下 4 种情况，就组成了混淆矩阵。
数据挖掘知识点总结-三个率以及混淆矩阵

字母含义

T:Ture
F:False
P:Positive
N:Nagetive

四个组合的解释

TP:实际为真的结果预测为真
FP:实际为假的结果预测为真
FN:实际为真的结果预测为假
FP:实际为假的结果预测为假
总结就是：前为真实，后为预测

二、三个率一条线

准确率
既然是个分类指标，我们可以很自然的想到准确率（Accuracy)，准确率的定义是预测正确的结果占总样本的百分比，其公式如下：
准确率 =(TP+TN)/(TP+TN+FP+FN)

虽然准确率可以判断总的正确率，但是在样本不平衡的情况下，并不能作为很好的指标来衡量结果。举个简单的例子，比如在一个总样本中，正样本占 90%，负样本占 10%，样本是严重不平衡的。对于这种情况，我们只需要将全部样本预测为正样本即可得到 90% 的高准确率，但实际上我们并没有很用心的分类，只是随便无脑一分而已。这就说明了：由于样本不平衡的问题，导致了得到的高准确率结果含有很大的水分。即如果样本不平衡，准确率就会失效。
正因为如此，也就衍生出了其它两种指标：精准率和召回率。
精准率
精准率（Precision）又叫查准率，它是针对预测结果而言的，它的含义是在所有被预测为正的样本中实际为正的样本的概率，意思就是在预测为正样本的结果中，我们有多少把握可以预测正确，其公式如下：
精准率 =TP/(TP+FP)

精准率和准确率看上去有些类似，但是完全不同的两个概念。精准率代表对正样本结果中的预测准确程度，而准确率则代表整体的预测准确程度，既包括正样本，也包括负样本。
召回率
召回率（Recall）又叫查全率，书上又说是覆盖率，它是针对原样本而言的，它的含义是在实际为正的样本中被预测为正样本的概率，其公式如下：
召回率 =TP/(TP+FN)
精准率和召回率的关系，F1 分数
通过上面的公式，我们发现：精准率和召回率的分子是相同，都是 TP，但分母是不同的，一个是**（TP+FP），一个是（TP+FN）**。两者的关系可以用一个 P-R 图来展示：

相关链接：

一文让你彻底理解准确率，精准率，召回率，真正率，假正率，ROC/AUC

数据挖掘知识点总结-三个率以及混淆矩阵

简介

正文

一、 混淆矩阵

字母含义

四个组合的解释

二、三个率一条线

相关推荐

一、混淆矩阵