对机器学习入门知识的总结

第二章:模型评估与选择
2.1经验误差与过拟合
1.错误率(error rate):分类错误的样本数占样本总数的比例
m个样本中a个样本分类错误——error rate:E=a/m
2.精 度(accuracy)=1-错误率(1-a/m)
3.误差(error):学习器的实际预测输出与样本的真是输出之间的差异
——①在训练集上的误差为“训练误差(training error)”
——② 在新样本上的误差为“泛化误差(generalization error)”
4.过拟合(ovefitting),欠拟合(underfitting)
图解很直观
对机器学习入门知识的总结

2.2评估方法
1.测试样本尽量不要出现在在训练集中出现,并且尽量不在训练集中使用
2.若只有一个包含m个样例的数据集,既要训练又要测试——对其进行处理,从中产生出训练集S和测试集T以下是方法
3.留出法(hold-out):将数据集D划分成两个互斥的集合——D=S∪T(尽可能保证数据分布的一致性,例如D=100,50个正,50个反->S=35正,35反;T=15正,15反)
4.交叉验证法(cross validation):将数据集D划分为k个大小相似的互斥子集->D=D1∪D2∪…..∪Dn(和之前一样把保持数据分布的一致性)通常取10次,称为10折交叉验证
对机器学习入门知识的总结

5.自助法(bootsrapping);——不是很懂(貌似就是每次都是随机抽取,和之前的交叉验证法有点相似)
适用于:数据集很小,难以有效的划分训练/测试集时
不足“改变了初始数据集的分布(引入估计偏差),数据量足够时还是援用留出法和交叉验证法
2.3性能度量
预测结果:f(x)预测结果,真实标记y
均方误差:
对机器学习入门知识的总结
1.错误率,精度
2.查准率,查全率
查准率:P=TP/(TP+FP)——真正例/真正例+假正例
查全率:R=TP/(TP+FN)——真正例/真正例+真反例
一般查准率高,查全率就低;查全率高,查准率就低

对机器学习入门知识的总结

平衡点
对机器学习入门知识的总结