机器学习概念笔记（1）——混淆矩阵、Precision、Recall、F-score

进入机器学习，必定会进行建模，对这些模型性能进行度量，便引入很多性能指标进行衡量，根据其性能指标，逐渐优化我们的模型。

1、混淆矩阵

混淆矩阵我们也称为误差矩阵，利用N×N的矩阵进行进度评价。
机器学习概念笔记（1）——混淆矩阵、Precision、Recall、F-score
TP(True Positive): 实际为正样本，预测也为正样本，预测正确。（真阳性）
FN(False Negative):实际为正样本，预测为负样本，预测错误。（假阴性）
FP(False Positive):实际为负样本，预测为正样本，预测错误。（假阳性）
TN(True Negative):实际为负样本，预测也为负样本，预测正确。（真阴性）

2、准确率、精准率、召回率

Accuracy（准确率）是分类指标中最初级的指标，是代表了预测正确结果的样本占总样本的百分比，给出定义如下：
机器学习概念笔记（1）——混淆矩阵、Precision、Recall、F-score
利用其可以判断模型的正确率，但由于受样本不平衡，导致所计算的准确率拥有很大水分，导致结果不正确，所以下述两个指标正是弥补其的不足之处。
Precision（精准率）又称为查准率，代表了预测为正样本中实际是正样本的百分比，给出定义如下：
机器学习概念笔记（1）——混淆矩阵、Precision、Recall、F-score
*相比于准确率，精准率代表的是正样本中预测正确的概率，而准确率整个模型在全部样本中的准确概率。
Recall（召回率）又称为查全率，代表实际为正样本中被预测为正样本的百分比，给出定义如下：
机器学习概念笔记（1）——混淆矩阵、Precision、Recall、F-score
进行最好模型的选定，常常要选择查准率（精准率）和查全率（召回率）都非常高的点，但是如图所示，两者实际是一个矛盾体（反比曲线），无法形成正比提高，为此要选择一个两者都高的平衡点。所以选择其最好的平衡点（阈值）就需要一个新的指标F值。
机器学习概念笔记（1）——混淆矩阵、Precision、Recall、F-score

F-score（F值）又称作F1-measure，是综合考虑Precision和Recall的指标，给出定义如下：
机器学习概念笔记（1）——混淆矩阵、Precision、Recall、F-score
参考：

机器学习，周志华
https://blog.csdn.net/yuxiaosmd/article/details/83046162?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.compare&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.compare
https://blog.csdn.net/q18421896/article/details/86569296

机器学习概念笔记（1）——混淆矩阵、Precision、Recall、F-score

1、混淆矩阵

2、准确率、精准率、召回率

相关推荐