《Text Mining and Analytics》学习笔记——第五周
第五周我们继续讨论“判别式”分类器在文本分类中的应用,还将讨论文本的观点和情感分析。
在上一周的学习中我们讨论了问题——怎样进行文本分类?并且讨论了生成式分类器,这周我们就先从判别式分类器讨论开始学习。
关于生成式分类器和判别式分类器的区别,大家可以查看这篇文章
判别式分类器
与生成式分类器不同的是,判别式分类器不需要知道联合概率分布,直接根据数据得到条件概率分布(具体可以看上面链接的两种分类器区别的文章)。
Q1:有哪些典型的判别式分类器?
1.逻辑回归
逻辑回归是判别式分类器的一种,由它的公式我们也可以直接看出它和生成式分类器的区别,如下图:
它是直接求相应条件概率的对数,而不像贝叶斯那样知道联合概率分布()。
这是逻辑回归的图像:
2.K最近邻分类器(K-NN)
K最近邻分类器是把一个新样本的附近区域内最多出现的类别作为新样本的类别。
如上图,新样本为黑色的正方形,选择的K=4(新样本附近选最近的4个样本),已知的样本中红色正方形出现的次数多(共3个),所以判定新样本为红色类别。
具体算法细节暂不展开。
3.支持向量机(SVM)
SVM也是目前比较流行的一种分类方法,它是目标是选择一个与类别之间间隔最大的超平面,在二维上是选择一条直线。
如上图,假设是选择的直线,则不难看出,直线以上的点,直线以下的点。注意,这时表示类别1,表示类别2。
假设我们的类别Y={-1,1},表示类别1,表示类别2。(就像上图中的两个虚线)。
也可以合成一个分类函数:
得到了分类函数,我们就差不多完成了SVM的第一步。
接下来我们需要最大化间隔。
最大化间隔的问题可以转化为权重矩阵最小化的问题.
具体算法细节不再展开。
总结一下:
1.判别式分类器能得到联合概率分布P(X,Y),而是直接利用条件概率分布P(Y|X)或是直接求决策函数f(x)
2.算法的作用效果要取决于实际的问题,不存在对任何问题都有很好效果的算法。
3.分类算法大多基于机器学习,面临着两个问题:1)如何选取有效的特征。2)如何获得足够的数据。
Q2:怎样评估文本分类的结果?
这部分涉及到机器学习中的“性能度量”,具体可以戳这篇文章。
其中最基本的度量方法就是“准确率”,其中有人为设置的标准“答案”,将它和我们模型的训练结果进行比较,从而得到模型的“准确率”。
但准确率有两个问题:
1). 有一些情况下,模型错误决策的代价非常大(比如手术的临床决策),我们需要模型必须准确。
2). 测试集的分布不平衡,比如我们有98%的测试集都是类别A,2%的测试集是类别B,那我直接把所有数据都归为类别A,什么都不就有98%的正确率了,这是不合理的。
混淆矩阵可以优化上述问题
其中Human表示真实的情况,System表示模型预测的结果。
当系统说“yes”的时候,到底有多少时对的,这时就产生了“准确率(查准率)”
系统把真正对的判断准确了多少,这叫做“召回率(查全率)”
结合查全率-查准率之后,我们会得到F1检验
其中0<β<1,查准率有更大的影响,β>1时查全率有更大的影响。
实际上还有很多衡量和评估的标准,具体大家可以去看上面那个文章。
观点挖掘和情感分析
从这一节开始,我们开始讨论观点挖掘和情感分析的内容。
Q3:什么是观点挖掘和情感分析?
人对世界的观察不同摄像机直接摄影的效果,因为人往往带着主观情绪,分析这些数据,我们往往能够得到很多发现。
观点:主观的感觉,个人的想法、信仰或其他的东西。
如上图,观点包括了观点持有者(opinion holder),观点对象(opinion target),观点内容(opinion content),上下文环境(context),观点情感(opinion sentiment)等。
观点也有不同的类别,其中常见的是作者观点,其实还有报道的观点(作者写的别人的观点),间接观点(推测出来的观点)
观点的内容和观点的上下文又称为观点的情感。
那为什么要进行文本情感分析呢?
决策支持
帮助用户选择更好的商品
帮助选择投票对象
帮助政客们设计新政策理解人们
了解用户需求
精确投放广告帮助调查
商业信息,市场调查
数据驱动的科学研究
Q4:什么是情感分类?
情感分类的基本模式:
1.输入:文本(有明确观点)
2.输出:文本情感标签
典型的分类器是有序逻辑回归
假设共有k类,则需要进行k-1次分类,即需要k-1个分类器
此时分类的流程如上图所示
这是会有两个问题:
1.分类的参数太多,不方便计算(参数工(k-1)*(M+1)个)
2.分类器之间不独立
解决的办法是共享分类器参数
此时分类的流程就变成如下图所示了
根据的值来判断属于哪一个评分级别。