NLP_2 TF_IDF—评估文本重要性以用于提取文本的特征

提取关键词中使用的主要算法

  • TF_IDF
    字词的重要性随其在文本中出现的次数而正比增加,同时会随之其在语料库中出现的频率而成反比
    计算公式为 t f i d f = t f ∗ i d f tfidf = tf* idf tfidf=tfidf
    前者是词频后者是逆向文件频率。
    t f = i / N tf = i/N tf=i/N
    i d e f = l o g 2 ( n k ) idef=log_2(\frac{n}{k}) idef=log2(kn)
    其中k可以加上1以避免分母为0。

实现也相对简单,所以这里直接开始修改原有代码并尝试一定的优化。

中文的提取关键词应该还有其他的操作,之后会具体介绍。

  • 词性还原lemmatization与词干提取stemming
    对于英文单词,需要去掉单词的词缀以提取主*分,相对于词干提取,可能需要二次指代。比如说ate=>eat就是词性还原,而effective=>effect则是词干提取。

但是在中文中一般不使用这类方案。

词性的说明如下所示

NLP_2 TF_IDF—评估文本重要性以用于提取文本的特征