使用java程序的术语频率

问题描述:

我有一套文档。我想知道每个文档(即)使用java程序的词频的每个词的频率计数。提前致谢。我知道如何找到每个单词的频率计数。我的问题是关于如何从文档列表中获取每个文档中的独特单词使用java程序的术语频率

+1

你的文件格式是什么? – 2010-09-05 18:12:59

您可以将文档分割为空格和标点符号,遍历所得数组,然后计算每个单词的频率(一个Map<String, Integer>真的会有帮助你用这个)。


资源:

关于同一主题:

如果不止一次要解决问题,您应该考虑使用Lucene来索引您的文档。然后this post会帮助你回答你的问题。