错误率和精度Accuracy
错误率公式:
E(f;D)=m1i=1∑mI(f(xi)̸=yi)
精度公式:
acc(f;D)=m1i=1∑mI(f(xi)=yi)=1−E(f;D)
查准率、查全率和F1
混淆矩阵定义:
查准率:与混淆矩阵第一列有关,预测的正例子有多少是真正的正例子:
P=TP+FPTP
查全率:与混淆矩阵第一行有关,真正的正例子中有多少被正确的预测了:
R=TP+FNTP
F1:由于查全率和查准率是一对矛盾,此时F1兼顾P和R的表现,是P和R的调和平均,定义式如下:
F11=21⋅(P1+R1)
P-R曲线
目的:用于选择查准率和查全率都表现相对较好的模型。
x轴为查全率,y轴为查准率即可绘制PR曲线:
如图所示A模型的PR曲线包住了C的PR曲线,说明A模型在P和R的综合表现要强过C。
ROC与AUC
目的:用来选择分类阈值(threshold)超参。
ROC曲线以x轴为假正率,y轴为真正率。真正率即召回率,假正率与混淆矩阵的第二行有关,假正率定义如下:
FPR=TN+FPFP
曲线如下图所示:
b图中每一个点坐标代表着由一个阈值所预测的混淆矩阵计算得出的真正率和假正率的坐标。阈值的确定是递增或者递减的例如从0开始一直到1,每改变一次阈值就计算一次混淆矩阵,然后计算真正率假正率,然后绘图。
参考:周志华 机器学习