西瓜书学习整理
训练误差
欠拟合
- 训练集与测试集准确度均低,从误差上讲属于偏差大
- 模型太简单
过拟合
- 训练集准确度高,测试集准确度低,误差上属于方差大
- 模型太复杂
评估方法
留出法
- 将数据集合D划分为互斥的训练集合S和训练集合T
- S/T的比例一般是7:3,通常将2/3~4/5的样本作为S
交叉验证法
- 将数据集D划分为互斥的K个子集
- 每次选取k-1个子集作为训练集合,剩余1个作为测试集合,平均准确度作为评估指标
自助法
- 采取boosting发法,本质就是有放回抽样,这样保证整个数据集D能够尽可能学习到
性能度量
错误率和精度
- 对于分类任务:
- 对于一般数据分布D和概率密度函数p:
查准率与查全率
- 可以参考混淆矩阵:
查准率P= T P / ( T P + F P ) TP/(TP+FP) TP/(TP+FP) ,查全率R= T P / ( T P + F N ) TP/(TP+FN) TP/(TP+FN) 查准率与查全率通常是相对比较矛盾的,查全率高比如判断样本是不是都是正例,我假设全部是正例,则R=1而P相对较低,反之亦然。通过选取不同的样本点,可以构建如图所示的P-R曲线
通过我们需要找到平衡点来兼顾P和R,比较常见的衡量标准有 F 1 = 2 P R / ( P + R ) F1=2PR/(P+R) F1=2PR/(P+R)
AUC与ROC
- ROC指的真正例率和假正例率构成的曲线
真正例率: T P R = T P / ( T P + F N ) TPR=TP/(TP+FN) TPR=TP/(TP+FN)
假正例率: F P R = F P / ( F P + T N ) FPR=FP/(FP+TN) FPR=FP/(FP+TN)
AUC指的ROC曲线所对应的面积,越大越好,图中虚线表示正反预测各一半效果最差