相似性

拓扑相似性


语义相似性(semantic similarity)定义在一组文档上或者术语上的度量,他们之间的距离基于他们的意义或者语义内容的相似性,而不是语法表示上的相似性。我们可以通过定义拓扑相似性来估计语义相似性。

生物医学上的应用:它们主要用于比较基因和蛋白质的功能相似性,而不是它们的序列相似性,但它们也正在扩展到其他生物实体,如化合物,解剖实体和疾病等方面。

常用来计算相似性:

1.jaccard 相似性:Jaccard指数也称为交集交汇点和Jaccard相似系数(Paul Jaccard最初创造的系数),是用于比较样本集的相似性和多样性的统计量。 Jaccard系数测量有限样本集之间的相似性,并将其定义为交点的大小除以样本集的并集大小:相似性如果AB都是空集的话,也定义为J(A,B) = 1.

相似性

如上图,如果所交的区域或者说样本集比较大的话,我们就可以说他们之间的相似性较大。


维基链接:https://en.wikipedia.org/wiki/Jaccard_index

2.高斯相似性:高斯核函数的相似性,可见https://www.cnblogs.com/yan2015/p/5182144.html

3.余弦相似性:余弦相似度是衡量内积空间的两个非零向量之间相似度的度量,它衡量它们之间角度的余弦。具体就是根据词句的内容以及词频,生成向量。计算他们之间的余弦大小,越接近1越相似。更详细的介绍可点击链接http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html



常见的相似性度量:见地址https://blog.csdn.net/xholes/article/details/52708854