如何找到字符串相似度?

问题描述:

我正在研究关键字提取系统,在prepossessing之后,系统通过检查匹配相同模式的文本提取候选关键字如何找到字符串相似度?

现在我想知道如何找到提取的候选关键字之间的相似度意义? 例如,让我们看看接下来的矩阵:

 k1 k2 k3 

k1 1 ?1 ?2 

k2 ?1 1 ?3 

k3 ?2 ?3 1 


how can I find the values of (?) ??? 
where 
    (?1) refer to the sense similarity degree between (k1) and (k2) 
    (?2) refer to the sense similarity degree between (k1) and (k3) 
    (?3) refer to the sense similarity degree between (k2) and (k3) 

注:关键字可以是1个字以上

+0

你是否有资格成为相似性?长度差异?字符?从一个词到另一个词的变化数量? –

+0

你在说[Levenshtein distance](http://en.wikipedia.org/wiki/Levenshtein_distance)吗? – jerry

+0

我的意思是词义相似性.... 意义上的相似程度 –

你可能想看看的WordNet ::相似性 - 这词的意义之间提供了相似的措施如在WordNet中发现的那样

http://wn-similarity.sourceforge.net