在两个文本文件中查找相同的单词
问题描述:
我有两个文本文件,每个文件包含超过50 000行。我需要找到两个文本文件中的相同单词。我尝试COMM命令,但我得到的答案是“文件2不是按排序顺序”。我试图通过命令SORT对文件进行排序,但它不起作用。我在Windows上工作。它不必在命令行中解决。它可以在一些程序或其他东西中解决。感谢您的每一个想法。在两个文本文件中查找相同的单词
答
如果单词不在自己的行,那么comm不能帮你。
如果你有一组UNIX工具得心应手,像Cygwin的,(你提到的通讯,所以你可能有其他人也),你可以这样做:
$ tr -cs "[:alpha:]" "\n" < firstFile | sort > firstFileWords
$ tr -cs "[:alpha:]" "\n" < secondFile | sort > secondFileWords
$ comm -12 firstFileWords secondFileWords > commonWords
前两行转换词语每个文件在每一行中包含一个单词,并对文件进行排序。
如果你只在个别词有兴趣,你可以改变sort
到sort -u
使获得独特的一套。
告诉你更多关于你的文字。每行一个字?或CSV?或者是什么?举一些例子会很好 – Kent 2013-05-04 22:03:48
第一个文本文件包含一个单词,每行包含字符#,&或*。第二个文件包含一个单词和每行数字。 – user1844845 2013-05-04 22:10:54