统计自然语言处理--文本分类

文本表示

文本表示有向量空间模型,词组表示法,概念表示法
目前文本通常采用向量空间模型表示

  • 文档
  • 特征项 可以是词,短语,文档可以看成是特征集合
  • 特征项的权重,文档可以用其含有的特征项以及特征项的权重表示

( 向量空间模型( VSM) ) 给定一个文档D( t1,
w1;t2, w2;…;tn, wn) , D符合以下两条约定:
( 1) 各个特征项tk( 1≤k≤n) 互异( 即没有重复) ( 2) 各个特征项tk无先后顺序关系( 即不考虑文档的内部结构) 。
在以上两个约定下, 可以把特征项t1, t2, …, tn看成一个n维坐标
系, 而权重w1, w2, …, wn为相应的坐标值, 因此, 一个文本就表示为n维空间中的一个向量。 我们称D=D( w1, w2, …, wn) 为文本D的向量表示或向量空间模型;

向量(文档)的相似度
  • 表示文档的向量的内积
  • 两个文档向量的夹角余弦值
向量空间模型步骤
  1. 根据训练样本集生成 文本表示所需要的特征项序列D={t1,t2,…,tn}
  2. 对训练集和测试集文档进行权重赋值

文档特征选择

  • 基于文档频率的特征提取法(DF)
    从训练语料中统计出包含某个特征的文章的个数,设定最高和最低阈值,保留阈值之内的特征
  • 信息增益法(IG)
    信息增益即不考虑任何特征市文档的熵和考虑该特征后文档的熵的差
    特征信息增益越大,对于分类的贡献越大
    统计自然语言处理--文本分类
  • 卡方分布
  • 互信息法
    特征t和类别共现的可能越大,互信息越大
    统计自然语言处理--文本分类
特征权重计算
  • 布尔权重 文档j中出现特征i分量值为1,否则为0
  • 绝对词频 文档j中出现特征i的频度
  • 倒排文档频度 log(N/ni)
  • TF-IDF
  • TFC tf-idf基础上进行归一化
    #### 分类器
    朴素贝叶斯
    SVM
    KNN
    决策树