查准率和查全率、单一数字评估

问题引入

对于一些答案分布不平均的分类问题,单一看准确率是不够的。

例如假设某种病发生的概率为1%1\%,那么显然对于任何一个就诊的人,直接回答没有病的做法,在准确率上达到99%99\%。但是这种做法显然很劣质,而我们由准确率作为唯一评价标准的评价方式,得到的结果为99%99\%,一份很高的评价。

查准率和查全率

我们对于这种问题引入查准率(percision)和查全率(recall)两个概念。

查准率反应的指标为判断的准确性:判断有病的人中,多少个有病。

查全率反应的指标为判断的可靠性:真正有病的人中,多少个被查出。

查准率和查全率、单一数字评估

percisionhave=aa+cpercision_{have}=\frac{a}{a+c}

recallhave=aa+brecall_{have}=\frac{a}{a+b}

如果使用这两个率作为评价标准,那么上面的直接否决的做法:
percisionhave=100%(0/0)recallhave=0%percision_{have}=100\%(0/0)\\ recall_{have}=0\%

貌似看上去还行。。。

评价方式

一个率极高,另外一个极低很容易,两个都高才是追求。

为了方便评价,我们引入一个式子:
F1  score=21percision+1recallF_1\;score=\dfrac{2}{\dfrac{1}{percision}+\dfrac{1}{recall}}

观察一下,如果一个很低,那么分子就很大了,那么总体就很小。

为了这个式子大,要求两个变量都要大。故这个式子称为调和平均数(Harmonic mean)。

单一数字评估

从分数中引申出一个选择超参数的方法,单一数字评估。

即本来需要考虑两个数字,现在只需要一个,可以直接看出变化后是变优还是变劣。

例如,给出10个准确率,那么我就可以用平均值来评估所有值。