如何根据文档集合计算文档相似度?

问题描述:

结合成对文档相似度得分以获得某个文档与文档集合的总体相似度得分的方法是什么?如何根据文档集合计算文档相似度?

如何计算对一个文档集合文档相似性? - ResearchGate。可从:https://www.researchgate.net/post/How_to_compute_document_similarity_against_a_document_collection [2016年8月22日访问]。处理这个的

的一种方式是,一个朴素贝叶斯文本分类的工作方式。通过将集合中的所有文档“拼接”为一个大的伪文档,您可以评估特定文档与该“集合”文档的相似性。这是大多数垃圾邮件过滤器的工作原理;他们将文档“廉价药品”与垃圾文档中看到的文本进行比较,看看它们是否比您倾向于阅读的文档更像他们。

这种“伪文件”的方法可能是计算这样的相似性最有效的方式,因为你只需要做的相似度计算每一次你的文档预先计算的集合的表示之后。

如果你真的有一个文档相似矩阵,并希望使用文档对相似而不是创建一个伪文件,你几乎进行分组。 (我这样说是因为如何结合文档内相似性是聚类类型中不同链接方法的主题)。要做到这一点

一种方式是看平均相似度。对于文档,您总结了该文档与所有其他文档之间的相似度分数,然后除以总数。这可以让您了解该文档与其他文档在相似空间中的平均距离。由于大多数文档远离集群中心的文档,因此异常值的平均距离会更长。

没有你的相似度,或者你正在试图解决什么问题的更多信息,我不知道我能给出更好的建议。