TF-IDF理解

TF-IDF算法(Term Frequency-Inverse Document Frequency ,词频-逆文档频次算法)是一种基于统计的计算方法。

TF算法:

该算法用于统计一个词在一篇文档中出现的频次,缺点是没有考虑到词对文档的区分能力,计算公式(采用了归一化):

TF-IDF理解

分子表示词i在文档j中出现的次数,分母表示文档j的总词数。

IDF算法:

该算法用于统计一个词在文档集的多少个文档中出现,也就是如果一个词在越少的文档中出现,则其对文档的区分能力也就越强。计算公式:

TF-IDF理解