初步理解机器学习评估(一)

评估方法:
留出法:
将数据集划分为两个互斥集合,保持数据分布的一致性,训练/测试样本比例通常为2:1~4:1
交叉验证法:
将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个自己的丙级作为训练集,余下的子集作为测试集,最终返回k个测试结果的均值,k通常取10.为了减小误差,一般需要重复p次
初步理解机器学习评估(一)
留一法:
将交叉验证法中的k = m(m是数据集中样本的数量),这样显然有利有弊,结果相对准确,不收划分方式的影响,但当数据集时,计算开销难以忍受
自助法:
对数据集又放回的采样m次得到数据集D’, D/D’用作测试集
初步理解机器学习评估(一)

评估指标
准确率&&错误率
但是准确率和错误率将每个类看的同等重要,不适合分析类不平衡数据集,此时查准率和查全率更适合,对于二分类问题,稀有类样本为正例.多数类样本为负例,可以得到混淆矩阵如下:
初步理解机器学习评估(一)
初步理解机器学习评估(一)
很多分类器会对测试样例产生一个概率预测,可以将预测的概率进行排序,把最可能的排在前面,最不可能的排在后面,分类过程就相当于一某个截断点将样本分为两部分,所以排序本身质量的好坏体现了分类器的性能
ROC曲线:
受试者工作特征曲线,选择不同的截断点逐个对样例预测,计算出真正率假正率,以真正率和假正率分别为竖轴和横轴,建立曲线
初步理解机器学习评估(一)
分类器预测样本排序的性能通过ROC包围的的面积进行比较,即AUC(Area Under ROC Curve).
初步理解机器学习评估(一)
以下面为例:
初步理解机器学习评估(一)
直接度量分类器的类概率估计性能:
条件似然性[CLL]

写的貌似有点长了,那下一篇继续写比较检验的内容好了
上述内容参考:
中国地质大学课件