将文字分段,并将文字中的连字符和撇号文字分组

问题描述:

我需要对文本中的单词进行分段。有些时候,带连字符的单词不带连字符,而撇号单词不带撇号。也有类似的问题,例如相同单词的不同拼写问题(例如:颜色,颜色)或用单词间隔写入的单个单词(例如:直到,空白,空格)。我需要将这些变体作为一个单独的表示进行分组,并将其插入到set/hashmap或其他位置。没有重音字符的重音字符单词也可能存在问题(尽管我还没有面对过它们)。目前,在任何空白字符和每个非字母数字中切出单词,然后对其进行填塞并省略停用词。将文字分段,并将文字中的连字符和撇号文字分组

这些索引稍后将用于文档相似性检查和搜索等。任何建议如何解决这些问题?我想到了一个将扫描的单词与单词表匹配的想法,但问题是专有名词和非字典单词将被省略。

信息:我的代码是用Java

+0

这是不是一个搜索引擎呢?你能不能说安装Apache Solr,然后通过你的文件运行它来执行tbnis任务?或者我错过了什么? – PurplePilot 2012-02-15 13:22:24

+0

@PurplePilot:我需要手动进行处理,所以你可以建议一个API或相关算法。 – phoxis 2012-02-15 14:09:27

+0

你可以试试这个http://tipsandtricks.runicsoft.com/Other/JavaStemmer.html – PurplePilot 2012-02-15 14:31:10

我想你应该申请的技术的组合。

1)对于常见的拼写变体,我会使用基于字典的方法。由于它们很常见,我不会担心丢失非字典词汇。这应该解决颜色/颜色问题。

2)对于拼写错误和其他非标准拼写变体,您可以应用Metaphone(http://en.wikipedia.org/wiki/Metaphone)算法将标记转换为其英语发音的表示形式。类似的变体听起来很相似,因此您可以将它们相互匹配(例如,Jon到John)。您还可以在查询过程中使用基于编辑距离的匹配算法来将非常相似的标记与只有一对字符并置或字符删除(例如,Huseyin与Housein)相匹配。

3)对于撇号和复合词之间的连字符,可以存储两个变体。例如,“John's”将被索引为“John s”和“Johns”。 “空格”可以转换为(或与“空格”和“空格”一起存储)。

4)对于没有任何连字符的复合词,可以使用外部库,例如Solr的HyphenationCompoundWordTokenFilterFactory类(http://lucene.apache.org/solr/api/org/apache/solr/analysis/ HyphenationCompoundWordTokenFilterFactory.html)。尽管它可以使用字典,但并不一定。它旨在处理在德语和类似语言中经常遇到的复合词。我看不出有什么理由不能将它应用到英文中(您需要提供英文字典和连字规则文件)。

其实最后一点引发了一个重要的问题。我认为你不需要从头开始构建自己的搜索库。如果这是真的,那么为什么不使用Lucene(或基于Lucene的Solr),这是一个基于Java的搜索库,它已经有处理这些问题的方法和方法?例如,注射技术允许您在文档中的同一位置对颜色和颜色进行索引;因此,无论您是搜索“彩色汽车”还是“彩色汽车”(假设您注意干扰),都无关紧要。有语音索引的过滤器(http://lucene.apache.org/solr/api/org/apache/solr/analysis/PhoneticFilterFactory.html)。甚至还有一个FuzzyQuery组件,它允许你允许一定量的编辑距离来匹配类似的术语(http://lucene.apache.org/core/old_versioned_docs/versions/3_2_0/api/all/org/apache/lucene/ search/FuzzyQuery.html)

您还需要决定要在哪个点处理这些问题:一种极端方法是在索引期间对这些术语的所有可能变体进行索引,并按原样使用这些查询。这将保持您的查询处理轻松,但会花费你一个更大的索引(因为你需要存储的所有变种)。另一个极端是将文档编入索引并在搜索期间扩展查询。这将允许您保持索引精简,但需要更重的查询处理。语音索引会要求您在索引过程中处理文档和在搜索过程中处理查询。模糊匹配只有在搜索时间内才可行,因为大概你无法在索引中存储所有术语的所有编辑变体。