查准率和查全率、单一数字评估
问题引入
对于一些答案分布不平均的分类问题,单一看准确率是不够的。
例如假设某种病发生的概率为,那么显然对于任何一个就诊的人,直接回答没有病的做法,在准确率上达到。但是这种做法显然很劣质,而我们由准确率作为唯一评价标准的评价方式,得到的结果为,一份很高的评价。
查准率和查全率
我们对于这种问题引入查准率(percision)和查全率(recall)两个概念。
查准率反应的指标为判断的准确性:判断有病的人中,多少个有病。
查全率反应的指标为判断的可靠性:真正有病的人中,多少个被查出。
如果使用这两个率作为评价标准,那么上面的直接否决的做法:
貌似看上去还行。。。
评价方式
一个率极高,另外一个极低很容易,两个都高才是追求。
为了方便评价,我们引入一个式子:
观察一下,如果一个很低,那么分子就很大了,那么总体就很小。
为了这个式子大,要求两个变量都要大。故这个式子称为调和平均数(Harmonic mean)。
单一数字评估
从分数中引申出一个选择超参数的方法,单一数字评估。
即本来需要考虑两个数字,现在只需要一个,可以直接看出变化后是变优还是变劣。
例如,给出10个准确率,那么我就可以用平均值来评估所有值。