文本相似度Shingling和Minhash算法

目录:
1、测试案例:
2、程序流程:
3、源代码示例:
4、运行结果:

1、测试案例:
采用Shinling及Minhash技术分析以下两段文本的Jaccard相似度:
(1)IELTS (International English Language Testing System) conducted by the British Council, University of Cambridge Local Examinations Syndicate and International Development Program of Australian Universities and College: providing grade 6.5 or higher (i.e. 7, 8, 9) overall has been obtained with a breakdown of 6.0 in reading and writing and 5.5 in listening and speaking.
(2)IELTS / UKVI –IELTS 6.5 overall with 6.0 in reading and writing, 5.5 in listening and speaking for Law, Psychology, Architecture, English, Accounting and Finance
(3)采用的hash函数:
h1(r)=(3r +1) mod 7
h2(r)=(5r +1) mod 7

2、程序流程:
文本相似度Shingling和Minhash算法
图2.1 程序流程图

3、源代码示例:
(1)KShingle.java
[java] view plain copy
  1. <span style="font-family:Times New Roman;font-size:14px;">package com.remoa.experiment;  
  2.   
  3. import java.io.BufferedReader;  
  4. import java.io.IOException;  
  5. import java.io.InputStream;  
  6. import java.io.InputStreamReader;  
  7. import java.text.DecimalFormat;  
  8. import java.util.Set;  
  9. import java.util.TreeSet;  
  10.   
  11. public class KShingle {  
  12.     //读测试文本一  
  13.     protected static String ReadFile1() throws IOException{  
  14.         InputStream in = KShingle.class.getResourceAsStream("测试文本一.txt");  
  15.         BufferedReader br = new BufferedReader(new InputStreamReader(in));  
  16.         StringBuilder sb = new StringBuilder();  
  17.         String line = null;  
  18.         while((line = br.readLine()) != null){  
  19.             sb.append(line);  
  20.             sb.append("\n");  
  21.         }  
  22.         return sb.toString();  
  23.     }  
  24.       
  25.     //读测试文本二  
  26.     protected static String ReadFile2() throws IOException{  
  27.         InputStream in = KShingle.class.getResourceAsStream("测试文本二.txt");  
  28.         BufferedReader br = new BufferedReader(new InputStreamReader(in));  
  29.         StringBuilder sb = new StringBuilder();  
  30.         String line = null;  
  31.         while((line = br.readLine()) != null){  
  32.             sb.append(line);  
  33.             sb.append("\n");  
  34.         }  
  35.         return sb.toString();  
  36.     }  
  37.       
  38.     //删除停用词及空格符(仅针对本样例文本)  
  39.     protected static String deleteWord(String str){  
  40.         String replaceStr = str.replaceAll("and """).replaceAll("by """).replaceAll("the """).replaceAll("of """).replace("with """).replaceAll("\\)""").replaceAll("\\(""").replaceAll(",""").replaceAll("\\D\\.""").replaceAll("\\s","");  
  41.         return replaceStr;  
  42.     }  
  43.       
  44.     //使用k-shingle算法分隔  
  45.     protected static Set<String> split(String str, int k){  
  46.         Set<String> shingSet = new TreeSet<String>();//使用TreeSet而不使用HashSet有利于在MinHash算法中降低算法复杂度  
  47.         for(int i = 0; i <= str.length() - k; i++){  
  48.             shingSet.add(str.substring(i, i + k));  
  49.         }  
  50.         return shingSet;  
  51.     }  
  52.       
  53.     //获得两段文本之间的相似度  
  54.     protected static Set<String> jaccard(int k) throws IOException{  
  55.         String str1 = ReadFile1();  
  56.         String str2 = ReadFile2();  
  57.         String replacedStr1 = deleteWord(str1);  
  58.         String replacedStr2 = deleteWord(str2);  
  59.         Set<String> set1 = split(replacedStr1, k);  
  60.         Set<String> set2 = split(replacedStr2, k);  
  61.         Set<String> allElementSet = new TreeSet<String>();  
  62.         allElementSet.addAll(set1);  
  63.         allElementSet.addAll(set2);  
  64.         double jaccardValue = (set1.size() + set2.size() - allElementSet.size()) * 1.0 / allElementSet.size();  
  65.         DecimalFormat df = new DecimalFormat("0.00");  
  66.         System.out.println("使用" + k + "-shingle的两段文本之间的相似度结果为:" + df.format(jaccardValue));  
  67.         return allElementSet;  
  68.     }  
  69. }  
  70. </span>  
(2)MinHash.java
[java] view plain copy
  1. <span style="font-family:Times New Roman;font-size:14px;">package com.remoa.experiment;  
  2.   
  3. import java.io.IOException;  
  4. import java.text.DecimalFormat;  
  5. import java.util.Iterator;  
  6. import java.util.Random;  
  7. import java.util.Set;  
  8.   
  9. public class MinHash {  
  10.     //得到set  
  11.     protected static Set<String> getSet(int k, String str) throws IOException{  
  12.         String replacedStr = KShingle.deleteWord(str);  
  13.         Set<String> set = KShingle.split(replacedStr, k);  
  14.         return set;  
  15.     }  
  16.       
  17.     //构建特征集合矩阵  
  18.     protected static String[][] characteristicMatrix(Set<String> set, Set<String> set1, Set<String> set2){  
  19.         String[] a = new String[set.size()];  
  20.         set.toArray(a);  
  21.         String[] set1Array = new String[set1.size()];  
  22.         set1.toArray(set1Array);  
  23.         String[] set2Array = new String[set2.size()];  
  24.         set2.toArray(set2Array);  
  25.         String[][] matrix = new String[a.length][5];//此处构造为5是为了后面的最小哈希签名中的两个哈希函数的结果存放。  
  26.         int i, j, temp;  
  27.         for(i = 0; i < matrix.length; i++){  
  28.             for(j = 0; j < matrix[0].length; j++){  
  29.                 matrix[i][j] = "0";  
  30.             }  
  31.         }  
  32.         i = 0;  
  33.         for(Iterator<String> iter = set.iterator(); iter.hasNext();){  
  34.             matrix[i++][0] = iter.next();  
  35.         }  
  36.         i = 0;  
  37.         temp = 0;  
  38.         for(j = i; j < a.length && temp < set1Array.length; j++){  
  39.             if(matrix[j][0].equals(set1Array[temp])){  
  40.                 matrix[j][1] = "1";  
  41.                 temp++;  
  42.             }  
  43.         }  
  44.         temp = 0;  
  45.         for(j = i; j < a.length && temp < set2Array.length; j++){  
  46.             if(matrix[j][0].equals(set2Array[temp])){  
  47.                 matrix[j][2] = "1";  
  48.                 temp++;  
  49.             }  
  50.         }  
  51.         return matrix;  
  52.     }  
  53.       
  54.     //行打乱  
  55.     protected static String[][] rowMess(String[][] matrix){  
  56.         int rowNumber1, rowNumber2;  
  57.         int i, j;  
  58.         String temp;  
  59.         Random r = new Random();  
  60.         //随机进行行打乱十次  
  61.         for(i = 0; i < 9; i++){  
  62.             rowNumber1 = r.nextInt(matrix.length);  
  63.             rowNumber2 = r.nextInt(matrix.length);  
  64.             for(j = 0; j < matrix[0].length; j ++){  
  65.                 temp = matrix[rowNumber2][j];  
  66.                 matrix[rowNumber2][j] = matrix[rowNumber1][j];  
  67.                 matrix[rowNumber1][j] = temp;  
  68.             }  
  69.         }  
  70.         return matrix;  
  71.     }  
  72.       
  73.     //根据最小hash值求相似度  
  74.     protected static double minHashJaccard(int k, Set<String> set) throws IOException{  
  75.         Set<String> set1 = getSet(k, KShingle.ReadFile1());  
  76.         Set<String> set2 = getSet(k, KShingle.ReadFile2());  
  77.         String[][] matrix = characteristicMatrix(set, set1, set2);  
  78.         matrix = rowMess(matrix);  
  79.         double result;  
  80.         System.out.println("已知定义:两个集合经随机排列转换之后得到的两个最小哈希值相等的概率等于这两个集合的jaccard相似度");  
  81.         int equalHashValue = 0;  
  82.         for(int i = 0; i < matrix.length; i++){  
  83.             if(matrix[i][1].equals(matrix[i][2]) && matrix[i][1].equals("1")){  
  84.                 equalHashValue++;  
  85.             }  
  86.         }  
  87.         System.out.println("全集共有项的数目:" + set.size());  
  88.         System.out.println("都为1(该子串在两段文本中均出现)的数目:" + equalHashValue);  
  89.         result = equalHashValue * 1.0 / set.size();  
  90.         DecimalFormat df = new DecimalFormat("0.00");  
  91.         System.out.println("第一项与第二项得到最小哈希值相等的概率计算为P = " + equalHashValue + " / "  + set.size() + " = " + df.format(result));  
  92.         System.out.println("即MinHash算得的两段文本之间的jaccard相似度结果为:" + df.format(result));  
  93.         return equalHashValue;  
  94.     }  
  95. }  
  96. </span>  
(3)MinHashSignature.java
[java] view plain copy
  1. <span style="font-family:Times New Roman;font-size:14px;">package com.remoa.experiment;  
  2.   
  3. import java.io.IOException;  
  4. import java.text.DecimalFormat;  
  5. import java.util.Set;  
  6.   
  7. public class MinHashSignature {  
  8.     protected static final int INF = 10000;  
  9.     //构造出特征矩阵  
  10.     protected static String[][] createCharacteristicMatrix(Set<String> set, int k) throws IOException{  
  11.         Set<String> set1 = MinHash.getSet(k, KShingle.ReadFile1());  
  12.         Set<String> set2 = MinHash.getSet(k, KShingle.ReadFile2());  
  13.         String[][] matrix = MinHash.characteristicMatrix(set, set1, set2);  
  14.         return matrix;  
  15.     }  
  16.       
  17.     //将哈希函数h1(r)=(3r +1) mod 7,h2(r)=(5r +1) mod 7的结果加入  
  18.     protected static String[][] addHashFunction(String[][] matrix){  
  19.         for(int i = 0; i < matrix.length; i++){  
  20.             matrix[i][3] = Integer.toString((3 * i + 1) % 7);  
  21.             matrix[i][4] = Integer.toString((5 * i + 1) % 7);  
  22.         }  
  23.         return matrix;  
  24.     }  
  25.       
  26.     //签名矩阵的计算算法  
  27.     protected static int[][] signatureCount(String[][] matrix){  
  28.         int[][] signatureMatrix = new int[][]{{INF,INF},{INF,INF}};  
  29.         int i, j;  
  30.         for(i = 0; i < matrix.length; i++){  
  31.             if(matrix[i][1].equals("1") && Integer.valueOf(matrix[i][3]) <= signatureMatrix[0][0]){  
  32.                 signatureMatrix[0][0] = Integer.valueOf(matrix[i][3]);  
  33.             }  
  34.             if(matrix[i][1].equals("1") && Integer.valueOf(matrix[i][4]) <= signatureMatrix[1][0]){  
  35.                 signatureMatrix[1][0] = Integer.valueOf(matrix[i][4]);  
  36.             }  
  37.             if(matrix[i][2].equals("1") && Integer.valueOf(matrix[i][3]) <= signatureMatrix[0][1]){  
  38.                 signatureMatrix[0][1] = Integer.valueOf(matrix[i][3]);  
  39.             }  
  40.             if(matrix[i][2].equals("1") && Integer.valueOf(matrix[i][4]) <= signatureMatrix[1][1]){  
  41.                 signatureMatrix[1][1] = Integer.valueOf(matrix[i][3]);  
  42.             }  
  43.         }  
  44.         System.out.println("得到的签名矩阵为:");  
  45.         System.out.println("     S1  S2");  
  46.         for(i = 0; i < signatureMatrix.length; i++){  
  47.             System.out.print("h" + i + "    ");  
  48.             for(j = 0; j < signatureMatrix[0].length; j++){  
  49.                 System.out.print(signatureMatrix[i][j] + "  ");  
  50.             }  
  51.             System.out.println();  
  52.         }  
  53.         return signatureMatrix;  
  54.     }  
  55.       
  56.     //求jaccard相似度  
  57.     protected static double signatureJaccard(Set<String> set, int k) throws IOException{  
  58.         int count = 0;  
  59.         double result = 0.0;  
  60.         String[][] matrix = createCharacteristicMatrix(set, k);  
  61.         matrix = addHashFunction(matrix);  
  62.         int[][] signatureMatrix = signatureCount(matrix);  
  63.         for(int i = 0; i < signatureMatrix.length; i++){  
  64.             if(signatureMatrix[i][0] == signatureMatrix[i][1]){  
  65.                 count++;  
  66.             }  
  67.         }  
  68.         result = count * 1.0 / signatureMatrix.length;  
  69.         DecimalFormat df = new DecimalFormat("0.00");  
  70.         System.out.println("所以可以推测SIM(S1, S2) = " + df.format(result));  
  71.         return result;  
  72.     }  
  73. }  
  74. </span>  
(4)Main.java
[java] view plain copy
  1. <span style="font-family:Times New Roman;font-size:14px;">package com.remoa.experiment;  
  2.   
  3. import java.io.IOException;  
  4. import java.util.Scanner;  
  5. import java.util.Set;  
  6.   
  7. public class Main {  
  8.     public static void main(String[] args) throws IOException {  
  9.         System.out.println("-----------使用k-shingle技术分析两段文本之间的Jaccard相似度-------");  
  10.         System.out.println("请输入k-shingle中k的值:");  
  11.         Scanner scann = new Scanner(System.in);  
  12.         int k = scann.nextInt();  
  13.         scann.close();  
  14.         Set<String> set = KShingle.jaccard(k);  
  15.         System.out.println("-----------使用MinHash技术分析两段文本之间的Jaccard相似度------------");  
  16.         MinHash.minHashJaccard(k, set);  
  17.         System.out.println("-----------用hash函数代替行打乱计算最小哈希签名------------");  
  18.         MinHashSignature.signatureJaccard(set, k);  
  19.     }  
  20. }  
  21. </span>  

4、运行结果:
(1)当k取值为1时,有:
文本相似度Shingling和Minhash算法
图4.1 运行结果1
(2)当k取值为2时,有:
文本相似度Shingling和Minhash算法
图4.2 运行结果2
(3)当k取值为3时,有:
文本相似度Shingling和Minhash算法