【机器学习课程-华盛顿大学】:1 案例研究 1.3 分类(1)概念描述
根据“餐馆评价分类”案例引出要学习的分类算法。
一、分类模型
1、比如一个智能的餐饮推荐系统:
给出美食打分,给出排名,并且用一句最棒的话评论美食:
2、分类应用
(1)2分类:情感分析
(2)多分类:网页主题分类
(2)2分类:垃圾邮件分类
(4)图像多分类:狗狗类别分类
(5)医疗应用:身体状况监测
根据体温、x光片、检测结果、DNA、生活习惯等,预测健康状况。
(6)读懂人脑
3、线性分类器
(1)阈值分类器
提前统计好评有哪些词,差评有哪些词。当新的评论来时,统计好评、差评词出现的次数,如果好评的词>差评的词:评价就为好评;否则为差评。
阈值分类器的缺点:
1)好评词、差评词的列表从哪获得呢?途径是个问题。
2)词的感情程度不一样,因此权重也不一样。比如:good,great, amazing这三个词,程度不一样。
3)另外,当好评词前加否定前缀,就又变成差评了。比如:not good,这种情况也要解决。
(2)线性分类器
举例:
线性分类器总结:
称为线性分类器的原因:输出是输入的加权和。
4、决策边界
(1)对于线性分类器来说:
2维分类的决策边界:直线
3维分类的决策边界:平面
更多维分类的决策边界:超平面
(2)对于分线性分类器来说:更复杂的决策边界
二、模型评估
1、训练分类器和评估
(1)训练分类器:学习权重的过程
(2)评估
统计正确、错误分类的次数
评估指标:
error = 错误分类的次数/总次数,accuracy = 正确分类的次数/总次数
error + accuracy = 1.0
2、什么是好的正确率accuracy?
起码要大于随机猜测的概率。k分类,则正确率要>1/k。
注意是否为类别不平衡问题,如果这样的话,正确率很高不一定说明分类效果已经很好。比如:全世界90%的邮件可能是垃圾邮件,你的垃圾邮件分类正确率90%,这样也不是好的分类器。
3、FP、FN和混淆矩阵
(1)错误分类
(2)错误分类带来的危害
(3)混淆矩阵举例
二分类
多分类
4、学习曲线
测试误差:对模型来说,即使数据无限多,但是还是有误差
5、分类概率
三、总结
1、模型总结
2、测试
(1)高准确率不一定是一个好模型:垃圾邮件分类的例子,垃圾邮件本身概率为90%,即使正确率达到90%,分类器也不是好的。