为什么我们希望在分类问题中最大化AUC?
答
我想我们用AUC,因为它说明了我们的方法是如何能够将数据独立分离的阈值。 对于某些应用程序,我们不希望有误报或负数。而当我们使用准确性时,我们已经在最佳阈值上做出先验分离数据,而不管特异性和敏感性如何。 。
答
在二元分类,精度为一定阈值和AUC(ROC曲线下面积)的单个模型的性能度量为一系列阈值的系列型号的性能度量。
多亏了这个问题,我学到的AUC和准确性比较颇有几分。我认为这两者之间没有相关性,我认为这仍然是一个悬而未决的问题。在回答结束时,我添加了一些链接,如these,我认为这些链接很有用。
一个场景精度失败:
例题
让,你上的数据集评估模型的性能的考虑二元分类问题100样品(类别0
和类别1
)。
拿出你的复杂的机器学习模型和一个哑巴系统始终输出0
不管它接收输入替换整个事情。 现在的准确度是多少?
Accuracy = Correct predictions/Total predictions = 98/100 = 0.98
我们得到了“始终0
”系统上的一个惊人的98%的准确率。
现在您将您的系统转换为癌症诊断系统,并开始预测(0
- 没有癌症,1
- 癌症)在一组患者上。假设将有几个对应于1
类的案例,您仍然会达到较高的准确性。
尽管具有高精确度,什么是系统的点,如果它不能在类1
(确定癌症患者)做的很好?
这一观察表明,精度不为每类型的机器学习问题的一个很好的评价指标。上述问题被称为不平衡类问题,并且存在足够的这种性质的实际问题。
至于准确性和AUC的比较,这里有一些链接,我认为将是有益的,
我是正确,如果我说 - “AUC的最大化是在同样的问题比较不同的分类模型时会考虑,这是不符合逻辑在一个特定的分类模式,最大限度AUC”? –
单个模型具有较高的AUC是有道理的。回想一下,我们可以得到的最佳ROC曲线是在False Positive Rate = 0时的阶梯函数。这是甚么 - 甚至是次优曲线(AUC> 0.5) - 意味着什么?即使对于会导致较高假错误率的阈值,您也会获得较高的正确率。 – akilat90