text mining week5学习笔记

一、 文本分类
1. 判别分类器
(1) logestic回归
text mining week5学习笔记
text mining week5学习笔记

(2) knn分类
text mining week5学习笔记
如要求正中间那个四方格属于哪个分类,则先要确定k的值,若设k=1,则归为距它最近的一个类。若k=4,如图圈中会看到玫红方格所占概率3/4,点方格为1/4,则归为玫红方格的类中.

(3) SVM
text mining week5学习笔记
尽力使分开的两个类别有最大的间隔,这样才使得分类具有更高的可信度,而且对于未知的新样本才有很好的分类预测能力。
text mining week5学习笔记
text mining week5学习笔记

有些时候分类情况并不能达到线性要求,此时就需要加一个误差项
text mining week5学习笔记

如何得到有效特征?
– 分析分类问题并利用相关领域知识
– 进行误差分析来获得设计新特性的洞察力(比如使用混淆矩阵来系统检查错误,了解为什么已经犯了错误,哪些特性可以防止错误的发生。)
– 使用机器学习技术 (如特征提取 降维 深度学习)

如何获得足量训练集?
– 使用低质量的训练集 (假设五颗星的评论都是积极的训练样本,一颗星是负的。但当然,有时五星级的评论也会提到负面意见,所以这是所谓低质量的。)
– 利用无标签数据(使用半监督学习)
– 从相关域借用训练集

  1. 评估方法
    一般方法是计算系统输出与人类理想输出的相似度。
    (1)分类正确率
    text mining week5学习笔记
    存在问题:平均地审视每个决策,不能很好地处理特定场景下不同错误的侧重性。
    当测试集不平衡有倾向时会得到很高的分类正确率,但是这对现实应用是不实际的。所以在使用正确率时应保证正反类有相等数量的实例。
    (2)精确率和查全率
    针对某一个文档d 或者某一类别c
    text mining week5学习笔记
    (3)F值
    当beta设为1时,则为F1值
    text mining week5学习笔记

(4)宏平均 微平均
宏平均是先对每一个类统计指标值,然后在对所有类求算术平均值。
微平均是对数据集中的每一个实例不分类别进行统计建立全局混淆矩阵,然后计算相应指标。

(5)排序评价
例如,垃圾邮件的发现可以基于对垃圾邮件类别的邮件排名进行评估。

二、 意见挖掘和情感分析
1. 意见/观点挖掘
作用:支持决策;理解人的偏好;自愿调查 (我们通常可以通过评估一般观点来收集许多人的意见)
2. 情感分类
(1)输入:带有意见的文本对象
输出:一般是一个情感的标签/标记
极性分析:将其中的情感分为正面 负面 中性,有时也采用数值评分
情绪分析:超越描述过程中意见持有者的感觉的极性特征
text mining week5学习笔记
(2)一些常见的特征:字串(可以容忍字母拼错,但判别力不如词)
词串(对情绪分析不够好,如 it’s not good和 it’s not as good as,长词串的话判别能力会更好但易过拟合)
词性标注(如ADJECTIVE NOUN ,great NOUN)
词类(来自句法(=词性标注)、语义
频繁出现的语法特征(如频繁出现的词集)
基于分析树 如频繁子树 路径 易过拟合
模式发现算法
(3)特征设计:利用领域知识设计种子特征,定义基本的特征空间;
利用机器学习进行特征选择 特征学习
利用误差分析对特征进行验证,看哪些特征出错了或过拟合了
特征设计中的挑战:权衡完备性(特征覆盖率高) 、 特异性(特性具有判别力)

  1. 有序逻辑回归
    (1)输入:含有评价的文本
    输出:离散的从1到k的评分
    (2)二元分类在逻辑回归中的应用
    text mining week5学习笔记
    (3)多层次等级与二元逻辑回归:引入多个二元类文件
    text mining week5学习笔记
    text mining week5学习笔记
    总共有k-1个分类器,每一个分类器有M+1个参数,所以总共有(k-1)*(M+1)个参数。参数多即意味着需要大量的训练数据来确定这个复杂模型里的最优参数。此外 这k-1个分类器并不是相互独立的,正面词语会使分类器的评级更高。
    (4)有序逻辑回归
    text mining week5学习笔记
    假设参数beta是表示权重推断的参数,并且它们在k-1个分类器中的值是一样的。该模型的好处是可以在不同分类器*享训练数据来求得最优参数,并且大大减小参数量,参数个数为k-1个alpha+M个beta。

text mining week5学习笔记
基于得分函数,看它落在哪个区间来做出得分决定

练习
text mining week5学习笔记
text mining week5学习笔记
text mining week5学习笔记
text mining week5学习笔记

测验
text mining week5学习笔记
text mining week5学习笔记
text mining week5学习笔记