Jaccard相似度

https://en.wikipedia.org/wiki/Jaccard_index
https://blog.****.net/qq_26710805/article/details/79855226

杰卡德系数(Jaccard Index),也称Jaccard相似系数(Jaccard similarity coefficient),用于比较有限样本集之间的相似性与差异性。如集合间的相似性、字符串相似性、目标检测的相似性、文档查重等。
Jaccard系数的计算方式为:交集个数和并集个数的比值
J(A,B)=ABAB=ABA+BABJ(A,B)=\frac{|A\bigcap B|}{|A\bigcup B|}=\frac{|A\bigcap B|}{|A|+|B|-|A\bigcap B|}

相反地,Jaccard距离表示距离度量,用两个集合间不同样本比例来衡量
dJ(A,B)=1J(A,B)=ABABABd_J(A,B)=1-J(A,B)=\frac{|A\bigcup B|-|A\bigcap B|}{|A\bigcup B|}

0J(A,B)10\le J(A,B) \le 1Jaccard相似度