从文件名创建搜索条件

问题描述:

我目前正在尝试构建一个读取一堆文件名(目前只有几百个)的小型系统,然后允许用户搜索文件名。最终的目标是找到一些令人不愉快的名字,但它们会分享一些常见的词汇。我最终想添加一个功能,以允许它建议可能的重复。从文件名创建搜索条件

当前我将每个文件路径添加到ArrayList,然后将文件名的每个单词传递给使用链接的Hashtable。单词使用String.split()创建,所有非字母数字字符都转换为空格。这部分工作正常,你可以搜索单词的无忧。

我知道搜索多个术语背后的理论,获取响应并建立与选择每个文档多少次的基本相关性。

我目前的问题是与这个'mybestfile'类似的文件名。我的程序只能将它们作为一个单词处理。除非搜索'mybestfile',否则你什么也找不到。

任何人都可以提出我应该从这里下来的设计路径。我知道我可以在整个字典中解析,然后尝试通过匹配子字符串来拉出单词,但说实话,这只是一个简单的程序,我宁愿避免那种事情。

任何帮助将不胜感激!

(而且这个点半的学习,一半证明我能做到这一点,所以我想知道的是已经存在的解决方案,但更多的,他们是怎么做的,而不是用它们来代替)

您可以从Apache Codec language package中的各种“听起来像”和距离算法开始。 (我认为距离算法是在Commons Lang中,而不是编解码器。)

SimMetrics是另一个。实际上找不到我要找的那个,但here's a list, too

+0

欢呼声,我会检查出来 –

+0

@ dann.dev如果你想到它,让我知道你最终结束了什么;我需要在不同的领域做类似的事情,但还没有开始呢?/ –