为什么我们希望在分类问题中最大化AUC?

问题描述:

我想知道为什么我们的目标是最大化AUC时最大化准确性产量相同?为什么我们希望在分类问题中最大化AUC?

我认为这与主要目标最大化的准确性以来,AUC会自动变大。

我想我们用AUC,因为它说明了我们的方法是如何能够将数据独立分离的阈值。 对于某些应用程序,我们不希望有误报或负数。而当我们使用准确性时,我们已经在最佳阈值上做出先验分离数据,而不管特异性和敏感性如何。 。

在二元分类,精度为一定阈值和AUC(ROC曲线下面积)的单个模型的性能度量为一系列阈值的系列型号的性能度量。

多亏了这个问题,我学到的AUC和准确性比较颇有几分。我认为这两者之间没有相关性,我认为这仍然是一个悬而未决的问题。在回答结束时,我添加了一些链接,如these,我认为这些链接很有用。


一个场景精度失败:


例题

让,你上的数据集评估模型的性能的考虑二元分类问题100样品(类别0和类别1)。

拿出你的复杂的机器学习模型和一个哑巴系统始终输出0不管它接收输入替换整个事情。 现在的准确度是多少?

Accuracy = Correct predictions/Total predictions = 98/100 = 0.98 

我们得到了“始终0系统上的一个惊人的98%的准确率。

现在您将您的系统转换为癌症诊断系统,并开始预测(0 - 没有癌症,1 - 癌症)在一组患者上。假设将有几个对应于1类的案例,您仍然会达到较高的准确性。

尽管具有高精确度,什么是系统的点,如果它不能在类1(确定癌症患者)做的很好?


这一观察表明,精度不为类型的机器学习问题的一个很好的评价指标。上述问题被称为不平衡类问题,并且存在足够的这种性质的实际问题。


至于准确性和AUC的比较,这里有一些链接,我认为将是有益的,

  1. An introduction to ROC analysis
  2. Area under curve of ROC vs. overall accuracy
  3. Why is AUC higher for a classifier that is less accurate than for one that is more accurate?
  4. What does AUC stand for and what is it?
  5. Understanding ROC curve
  6. ROC vs. Accuracy vs. AROC
+0

我是正确,如果我说 - “AUC的最大化是在同样的问题比较不同的分类模型时会考虑,这是不符合逻辑在一个特定的分类模式,最大限度AUC”? –

+0

单个模型具有较高的AUC是有道理的。回想一下,我们可以得到的最佳ROC曲线是在False Positive Rate = 0时的阶梯函数。这是甚么 - 甚至是次优曲线(AUC> 0.5) - 意味着什么?即使对于会导致较高假错误率的阈值,您也会获得较高的正确率。 – akilat90