您的位置: 首页 > 文章 > NLP_2 TF_IDF—评估文本重要性以用于提取文本的特征

NLP_2 TF_IDF—评估文本重要性以用于提取文本的特征

分类: 文章 • 2023-03-27 12:41:26

提取关键词中使用的主要算法

TF_IDF
字词的重要性随其在文本中出现的次数而正比增加，同时会随之其在语料库中出现的频率而成反比
计算公式为 t f i d f = t f ∗ i d f tfidf = tf* idf tfidf=tf∗idf
前者是词频后者是逆向文件频率。
t f = i / N tf = i/N tf=i/N
i d e f = l o g 2 ( n k ) idef=log_2(\frac{n}{k}) idef=log2(kn)
其中k可以加上1以避免分母为0。

实现也相对简单，所以这里直接开始修改原有代码并尝试一定的优化。

中文的提取关键词应该还有其他的操作，之后会具体介绍。

词性还原lemmatization与词干提取stemming
对于英文单词，需要去掉单词的词缀以提取主*分，相对于词干提取，可能需要二次指代。比如说ate=>eat就是词性还原，而effective=>effect则是词干提取。

但是在中文中一般不使用这类方案。

词性的说明如下所示

NLP_2 TF_IDF—评估文本重要性以用于提取文本的特征