深度学习 分类及其性能度量


分类问题

分类问题是有监督学习的一个核心问题。
分类用于解决要预测样本属于哪个或者哪些预定义的类别。此时输出变量通常取有限个离散值。
分类的机器学习的两大阶段:
(1)从训练数据中学习得到一个分类决策函数或分类模型,成为分类器(classifier);
(2)利用学习得到的分类器对新的输入样本进行类别预测。
多类分类问题可转化为两类分类问题解决,如采用一对其余(One-vs-Rest)方法:将其中一个类标记为正类,将其余类标记为负类。

分类性能度量:

假设只有两类样本,即正例(positive)和负例(negetive)。
深度学习 分类及其性能度量真正(True Positive , TP):被模型预测为正的正样本。
假正(False Positive , FP):被模型预测为正的负样本。
假负(False Negative , FN):被模型预测为负的正样本。
真负(True Negative , TN):被模型预测为负的负样本。

1、准确率(accuracy)

分类器正确分类的样本数与总样本数之比。
深度学习 分类及其性能度量

* 2、精确率(percision)

深度学习 分类及其性能度量

精确率和召回率是二类分类问题常用的评价指标。
精确率反映了模型判断的正例中真正正例的比重。
在垃圾分类中,是指预测出的垃圾短信中真正垃圾短信的比例。

* 3、召回率(recall)/灵敏度(sensitivity)

深度学习 分类及其性能度量
召回率反映了总正例中被模型正确判定为正例的比重。
医学领域也叫做灵敏度。在垃圾短信分类器中,指所有真的垃圾短信被分类器正确找出来的比例。

4、P-R曲线

深度学习 分类及其性能度量由图可见,如果提高召回率,则精确率会受到影响而下降。深度学习 分类及其性能度量如图是多类分类器,每次将一类分为正例,其他两类为负例,则得到蓝绿红三条曲线。而黄色曲线是他们的平均值线。
括号中area为曲线下面积。
area有助于弥补P、R的单点值局部性,可以反映全局性能。

P-R曲线的绘制

绘制P-R曲线需要一系列Percision和Recall值,通过阈值获得。分类器会给“Score”值给每个测试样本,表示该样本多大概率上属于正例。
深度学习 分类及其性能度量

5、F值

F值是精确率和召回率的调和平均值。
深度学习 分类及其性能度量F1值更接近于两个数较小的那个,所以精确率和召回率接近时,F1值大。
深度学习 分类及其性能度量

6、ROC曲线

ROC曲线全称为“受试者工作特征”(Receiver Operating Characteristic)曲线。描绘了分类器在真正率(TPR)和假正率(FPR)之间的trade-off。
也可理解为:我们根据学习器的预测结果,把阈值从0变到最大,即刚开始是把每个样本作为正例进行预测,随着阈值的增大,学习器预测正样例数越来越少,直到最后没有一个样本是正样例。在这一过程中,每次计算出TP和FP,分别以它们为横、纵坐标作图,就得到了“ROC曲线”。

ROC曲线的纵轴是“真正率”(True Positive Rate, 简称TPR),真正正例占总正例的比例,反映命中概率。横轴是“假正率”(False Positive Rate,简称FPR),错误的正例占负例的比例,反映误诊率、假阳性率、虚惊概率。
深度学习 分类及其性能度量