西瓜书学习整理

西瓜书学习笔记--02

训练误差

欠拟合

  • 训练集与测试集准确度均低,从误差上讲属于偏差大
  • 模型太简单

过拟合

  • 训练集准确度高,测试集准确度低,误差上属于方差大
  • 模型太复杂

评估方法

留出法

  • 将数据集合D划分为互斥的训练集合S和训练集合T
  • S/T的比例一般是7:3,通常将2/3~4/5的样本作为S

交叉验证法

  • 将数据集D划分为互斥的K个子集
  • 每次选取k-1个子集作为训练集合,剩余1个作为测试集合,平均准确度作为评估指标

自助法

  • 采取boosting发法,本质就是有放回抽样,这样保证整个数据集D能够尽可能学习到

性能度量

错误率和精度

  • 对于分类任务: 西瓜书学习整理西瓜书学习整理
  • 对于一般数据分布D和概率密度函数p:西瓜书学习整理西瓜书学习整理

查准率与查全率

  • 可以参考混淆矩阵:西瓜书学习整理
    查准率P= T P / ( T P + F P ) TP/(TP+FP) TP/(TP+FP) ,查全率R= T P / ( T P + F N ) TP/(TP+FN) TP/(TP+FN) 查准率与查全率通常是相对比较矛盾的,查全率高比如判断样本是不是都是正例,我假设全部是正例,则R=1而P相对较低,反之亦然。通过选取不同的样本点,可以构建如图所示的P-R曲线
    西瓜书学习整理
    通过我们需要找到平衡点来兼顾P和R,比较常见的衡量标准有 F 1 = 2 P R / ( P + R ) F1=2PR/(P+R) F1=2PR/(P+R)

AUC与ROC

  • ROC指的真正例率和假正例率构成的曲线
    真正例率: T P R = T P / ( T P + F N ) TPR=TP/(TP+FN) TPR=TP/(TP+FN)
    假正例率: F P R = F P / ( F P + T N ) FPR=FP/(FP+TN) FPR=FP/(FP+TN)
    西瓜书学习整理
    AUC指的ROC曲线所对应的面积,越大越好,图中虚线表示正反预测各一半效果最差