机器学习的一些常识

分类问题的评估:

对于二分类问题常用的评价指标是精确率(precision)和召回率(recall)

TP————正类预测为正类

FN————正类预测为负类

FP————负类预测为正类

TN————负类预测为负类

                                       精确率定义为:机器学习的一些常识

                                       召回率定义为:机器学习的一些常识

此外,还有机器学习的一些常识值,是精确率和召回率的调和均值,精确率和召回率都高的时候,机器学习的一些常识也会高:

                                                                   机器学习的一些常识

                                                          机器学习的一些常识

 

ROC 曲线

ROC 曲线接收者操作特征曲线)是一种显示分类模型在所有分类阈值下的效果的图表。该曲线绘制了以下两个参数:

  • 真正例率
  • 假正例率

真正例率 (TPR) 是召回率的同义词,因此定义如下:

                                                                  机器学习的一些常识

假正例率 (FPR) 的定义如下:

 

                                                                 机器学习的一些常识

ROC 曲线用于绘制采用不同分类阈值时的 TPR 与 FPR。降低分类阈值会导致将更多样本归为正类别,从而增加假正例和真正例的个数。下图显示了一个典型的 ROC 曲线。

机器学习的一些常识
不同分类阈值下的 TP 率与 FP 率

 

为了计算 ROC 曲线上的点,我们可以使用不同的分类阈值多次评估逻辑回归模型,但这样做效率非常低。幸运的是,有一种基于排序的高效算法可以为我们提供此类信息,这种算法称为曲线下面积。

曲线下面积:ROC 曲线下面积

AUC(Area Under Curve)被定义为ROC曲线下的面积,曲线下面积表示“ROC 曲线下面积”。也就是说,曲线下面积测量的是从 (0,0) 到 (1,1) 之间整个 ROC 曲线以下的整个二维面积;

机器学习的一些常识
曲线下面积(ROC 曲线下面积)

 

曲线下面积(AUC值)的取值范围为 0-1。预测结果 100% 错误的模型的曲线下面积为 0.0;而预测结果 100% 正确的模型的曲线下面积为 1.0。AUC值是一个概率值,当你随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然,AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。