您的位置: 首页 > 文章 > 机器学习中评价方法

机器学习中评价方法

分类: 文章 • 2024-10-02 16:01:34

经验误差和泛化误差

经验误差=训练误差
泛化误差=正式使用的误差 $\approx$ 测试误差
过拟合：经验误差小，泛化误差大
欠拟合：经验误差大

错误率和精度

精度：
$acc=\frac1m\sum_{i=1}^m\mathbb{I}(f(x_i)=y_i))$
错误率=1-精度

查准率，查全率，F1

真实\预测	正	负
真	TP	FN
假	FP	TN

查准率(precision)：
$P=\frac{TP}{TP+FP}$
查全率（召回率 Rcall）：
$R=\frac{TP}{TP+FN}$
PR曲线

将所有样本按照是正例的可能性排序（降序），从左到右依次计算当前的查准率和查全率。
特性：A曲线包住C，则A学习器更优。如有交叉则不能确定
F1
$\frac{1}{F1}=\frac{1}{2}(\frac{1}{P}+\frac{1}{R})$
可推导出：
$F1=\frac{2PR}{P+R}=\frac{2TP}{2TP+FP+FN}$

ROC与AUC

ROC(受试者工作特征 Receiver Operating Characteristic)

真正例率(多少真被预测成正)
$TPR=\frac{TP}{TP+FN}$
假正例率(多少假被预测成正)
$FPR=\frac{FP}{FP+TN}$
ROC
把学习器对样例的预测结果排序（降序），按此顺序把样本当做正例开始预测。

如上，是三条ROC曲线，在0.23处取一条直线。那么，在同样的FPR=0.23的情况下，红色分类器得到更高的TPR。也就表明，ROC越往上，分类器效果越好。
AUC
AUC是ROC的下包面积，面积越大学习器越好。

偏差，方差

偏差
度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习器本身的拟合能力
方差
度量了同样本大小的训练集的变动所导致学习器性能变化，方差小，性能稳定，学习器好