关于AUC一些笔记

首先先理解一些其他概念

其实真阳=召回率=敏感度

真阳率,假阳率

真阳率=真阳患者/患者
假阳率=假阳患者/非患者

敏感度,特异度

敏感度=真阳患者/患者
特异度=真阴患者/非患者=1-假阳率

精度,召回率

精度=真阳/判为患者人数
召回率=真阳患者/患者

准确率

(真阳+真阴)/(患者+非患者)

ROC曲线

ROC曲线就是横坐标为假阳性,纵坐标为真阳性的一个线,而AUC则是这条线与x轴围成的面积

AUC值是怎么计算

具体可以参考:https://www.bioinfo-scrounger.com/archives/767/(非原作者,非常感谢这篇博客)是怎么说明的
大概思路有二种:
其一是:计算出每个样本的类别概率然后选定阈值,得出预测为正样本和负样本的标签,根据预测标签和真实标签就可以计算真阳率、假阳率等,然后将真实标签的正样本和负样本的类别概率两两组合,并计算正样本的类别概率大于负样本的类别概率的比例,即为AUC值
其二是:利用秩次关系
对score从到小排序,最大的score排序索引为n,最小的则为1;然后将正例的索引求和,减去正例-正例这种组合的个数M*(M+1)/2;最后除以M*N。

AUC的范围大小评估

这边参照这篇微信文章,取自截图https://mp.weixin.qq.com/s/S2yHZCrjaSxw386N6ziz5w

关于AUC一些笔记
按个人理解而言,这边的AUC范围并不是固定的,因为跟数据有关,有的数据比较差的话,可能模型能达到的最优AUC也就0.8左右,所以此时强行按图观察的话可能会有误
以上均为个人理解,有误请指正,也不知道咋转载或是跟原博客说,侵删