西瓜书《机器学习》阅读笔记4——Chapter2_代价曲线
代价曲线
书中关于代价曲线介绍的太简洁了,只靠书中的内容是无法理解的。建议大家去看原论文。
从分类器的ROC曲线上无法看出分类器的期望代价,而代价曲线是专门用于度量期望代价和operating condition之间的关系的。
在介绍ROC曲线的时候提到过一组指定的(类别分布,误分类代价)称作一个operating condition,并且对应ROC空间中的一簇iso-performance直线。
C(+|−)=C(−|+) 的情况下
令
此时,代价曲线的x轴表示
从左图的代价曲线图可以很容易地看出在什么条件下C4.5分类器更好,在什么条件下1R分类器更好。
C(+|−)≠C(−|+) 的情况下
此时需要同时把类别分布和误分类代价作为一个operating condition,然后考虑所有可能operating condition下的期望误差。
一个分类器的期望代价为:
最大期望代价在所有实例都被错误分类的情况下出现,有
用(2)对公式(1)归一化,使最大期望代价为1:
x轴也需要包含误分类代价的信息,直接为
还可以定义
于是有
由(2)(3)得到:
现在以
虽然代价敏感情况下分析分类器的期望误差看起来好像很困难,但实际上相对于代价不敏感情况,唯一的改变只是把x轴和y轴的定义一般化了,得到的代价直线是一样的。
代价空间和ROC空间的双向点/线对偶关系
在原论文第7页有介绍这一关系。由于西瓜书的习题2.7考察的就是这一点,所以把这一点放在本章的习题解答中说明。
参考
[1] Cost curves: An improved method for visualizing classifier performance. Chris Drummond, Robert C. Holte. 2006.