为什么我们希望在分类问题中最大化AUC？

问题描述：

我想知道为什么我们的目标是最大化AUC时最大化准确性产量相同？为什么我们希望在分类问题中最大化AUC？

我认为这与主要目标最大化的准确性以来，AUC会自动变大。

答

我想我们用AUC，因为它说明了我们的方法是如何能够将数据独立分离的阈值。对于某些应用程序，我们不希望有误报或负数。而当我们使用准确性时，我们已经在最佳阈值上做出先验分离数据，而不管特异性和敏感性如何。。

答

在二元分类，精度为一定阈值和AUC（ROC曲线下面积）的单个模型的性能度量为一系列阈值的系列型号的性能度量。

多亏了这个问题，我学到的AUC和准确性比较颇有几分。我认为这两者之间没有相关性，我认为这仍然是一个悬而未决的问题。在回答结束时，我添加了一些链接，如these，我认为这些链接很有用。

一个场景精度失败：

例题

让，你上的数据集评估模型的性能的考虑二元分类问题100样品（类别0和类别1）。

拿出你的复杂的机器学习模型和一个哑巴系统始终输出0不管它接收输入替换整个事情。现在的准确度是多少？

Accuracy = Correct predictions/Total predictions = 98/100 = 0.98

我们得到了“始终0”系统上的一个惊人的98％的准确率。

现在您将您的系统转换为癌症诊断系统，并开始预测（0 - 没有癌症，1 - 癌症）在一组患者上。假设将有几个对应于1类的案例，您仍然会达到较高的准确性。

尽管具有高精确度，什么是系统的点，如果它不能在类1（确定癌症患者）做的很好？

这一观察表明，精度不为每类型的机器学习问题的一个很好的评价指标。上述问题被称为不平衡类问题，并且存在足够的这种性质的实际问题。

至于准确性和AUC的比较，这里有一些链接，我认为将是有益的，

我是正确，如果我说 - “AUC的最大化是在同样的问题比较不同的分类模型时会考虑，这是不符合逻辑在一个特定的分类模式，最大限度AUC”？ –

单个模型具有较高的AUC是有道理的。回想一下，我们可以得到的最佳ROC曲线是在False Positive Rate = 0时的阶梯函数。这是甚么 - 甚至是次优曲线（AUC> 0.5） - 意味着什么？即使对于会导致较高假错误率的阈值，您也会获得较高的正确率。 – akilat90