Sklearn的TfidfVectorizer中tfidf值的计算
TfidfVectorizer的实现是通过CountVectorizer和TfidfTransformer共同实现的。
其中TfidfTransformer实现了每个词的tfidf值的计算。
下图是官方文档中,对tfidf值计算的说明:
可以看出默认的计算方法是
其中:
- :所有的文档数目
- :包含词的文档数目
如果公式最后没有的话,如果某个词在所有文档中都出现,且 改词的逆文档频率将为0,从而导致改词被忽略。
TfidfVectorizer的实现是通过CountVectorizer和TfidfTransformer共同实现的。
其中TfidfTransformer实现了每个词的tfidf值的计算。
下图是官方文档中,对tfidf值计算的说明:
可以看出默认的计算方法是
其中:
如果公式最后没有的话,如果某个词在所有文档中都出现,且 改词的逆文档频率将为0,从而导致改词被忽略。