学习总结--混淆矩阵、准确率、精确率、召回率、PR曲线

先记一些概念

准确率

检测时分对的样本数除以所有的样本数。准确率一般被用来评估检测模型的全局准确程度,包含的信
息有限,不能完全评价一个模型性能。

混淆矩阵

混淆矩阵(Confusion Matrix)混淆矩阵是以模型预测的类别数量统计信息为横轴,真实标签的数量统计信息为纵轴画出的矩阵。对角线代表了模型预测和数据标签一致的数目,所以准确率也可以用混淆矩阵对角线之和除以测试集图片数量来计 算。对角线上的数字越大越好,在混淆矩阵可视化结果中颜色越深,代表模型在该类的预测结果更好。其他地方自然是预测错误的地方,自然值越小,颜色越浅说明模型预测的更好。
学习总结--混淆矩阵、准确率、精确率、召回率、PR曲线
在这个混淆矩阵中实际有 8只猫,但是系统将其中3只预测成了狗;对于 6条狗,其中有 1条被预测成了兔子,2条被预测成了猫。所有正确的预测结果都在对角线上,所以从混淆矩阵中可以很方便直观的看出哪里有错误,因为他们呈现在对角线外面。

在讲精确率和召回率之前先有如下假设:

假设你的分类系统最终的目的是:能取出测试集中所有飞机的图片,而不是大雁的图片。然后就可以定
义:
一True positives:简称为TP,即正样本被正确识别为正样本,飞机的图片被正确的识别成了飞机。
一True negatives:简称为TN,即负样本被正确识别为负样本,大雁的图片没有被识别出来,系统正确地
认为它们是大雁。
一False Positives:简称为FP,即负样本被错误识别为正样本,大雁的图片被错误地识别成了飞机。
一False negatives:简称为FN,即正样本被错误识别为负样本,飞机的图片没有被识别出来,系统错误地 认为它们是大雁。

精确率

精确率就是在识别出来的图片中,True positives所占的比率。也就是本假设中机中,所有被识别出来是飞机中,真正的飞机所占的比例。即 Precision=TP/(TP+FP)

召回率

召回率是测试集中所有正样本样例中,被正确识别为正样本的比例。也就是本假设中,被正确识别出
来的飞机个数与测试集中所有真实飞机的个数的比值,公式如下:Recall =TP/(TP+FN)

未完待续