分类常用指标总结
先上一个混淆矩阵
两个阳都是指估计为1
真阳率:
(TP + FN)/P
真实值为1的样本中,估计值为1的比例;反映了对于一个1样本,估计为1的概率。越高越好,1都被估计为1,都召回了。
假阳率:
(FP + TN )/N
真实值为0的样本中,估计为1的比例;反映了对于一个0样本,估计为1的概率。越低越好,0都不被估计为1。假阳就是为0却被估计为1。
ROC曲线的横轴为假阳率,纵轴为真阳率
随着分类阀值由0到1,ROC坐标由(1,1)到(0,0)
ROC不受正负样本比列影响
AUC为面积,其意义为1样本估计为1的概率大于0的样本估计为1的概率的概率;如果真阳率等于假阳率,那么表示分类器对于0、1样本估计为1的概率相等,换句话说,分类器对于正例和负例毫无区分能力。
precision,精确率
(TP)/ (TP + FP)
预测为1中真实为1的比例;假阳率越低,则0都不会被预测为1,相应的精确率变高
召回率
就是真阳率,比列越高,召回的越多。
待补充