对机器学习入门知识的总结

第二章：模型评估与选择
2.1经验误差与过拟合
1.错误率（error rate）：分类错误的样本数占样本总数的比例
m个样本中a个样本分类错误——error rate：E=a/m
2.精度（accuracy）=1-错误率（1-a/m）
3.误差（error）：学习器的实际预测输出与样本的真是输出之间的差异
——①在训练集上的误差为“训练误差（training error）”
——② 在新样本上的误差为“泛化误差（generalization error）”
4.过拟合（ovefitting），欠拟合（underfitting）
图解很直观
对机器学习入门知识的总结

2.2评估方法
1.测试样本尽量不要出现在在训练集中出现，并且尽量不在训练集中使用
2.若只有一个包含m个样例的数据集，既要训练又要测试——对其进行处理，从中产生出训练集S和测试集T以下是方法
3.留出法（hold-out）：将数据集D划分成两个互斥的集合——D=S∪T（尽可能保证数据分布的一致性，例如D=100，50个正，50个反->S=35正，35反；T=15正，15反）
4.交叉验证法（cross validation）：将数据集D划分为k个大小相似的互斥子集->D=D1∪D2∪…..∪Dn（和之前一样把保持数据分布的一致性）通常取10次，称为10折交叉验证
对机器学习入门知识的总结

5.自助法（bootsrapping）;——不是很懂（貌似就是每次都是随机抽取，和之前的交叉验证法有点相似）
适用于：数据集很小，难以有效的划分训练/测试集时
不足“改变了初始数据集的分布（引入估计偏差），数据量足够时还是援用留出法和交叉验证法
2.3性能度量
预测结果：f(x)预测结果，真实标记y
均方误差：
对机器学习入门知识的总结
1.错误率，精度
2.查准率，查全率
查准率：P=TP/（TP+FP）——真正例/真正例+假正例
查全率：R=TP/（TP+FN）——真正例/真正例+真反例
一般查准率高，查全率就低；查全率高，查准率就低

对机器学习入门知识的总结

平衡点
对机器学习入门知识的总结

对机器学习入门知识的总结

相关推荐