UIMA芸田里的暧昧

问题描述:

在单词匹配的情况下是否有模糊的选择,或忽略一些特殊情况。UIMA芸田里的暧昧

对于前:

STRINGLIST AMIMALLIST = {"LION","TIGER","MONKEY"}; 
DECLARE ANIMAL; 


Document {-> MARKFAST(ANIMAL, AMIMALLIST, true)}; 

我需要匹配列表中的字词的情况下,我面对像

Tiger-MONKEY一些特殊字符$

documentation有是不同的评估者任何想法如何使用? 或者,我可以用SCOREMARKSCORE

+0

@PeterKluegl您可以在这里帮忙吗? – Gaurav

+1

是的,我会在接下来的几天添加一个答案。 –

有几个方面考虑这里。通常,UIMA Ruta在字典查找中不支持模糊性。 SCOREMARKSCORE是可用于在顺序规则中引入一些heurstic评分(不是真正的模糊性)的语言元素。在你提出的问题的例子中,你并不需要模糊匹配。

在UIMA Ruta中的字典查找工作在RutaBasic注释。这些注释是由UIMA Ruta自己创建和维护的(不应该由其他分析引擎或规则直接更改)。 RutaBasic注释表示注释引用的最小片段。默认情况下,RutaEngine的播种器为单词(W - >CWSWCAP)和许多其他令牌(如SPECIAL)创建 - 或$的注释。这意味着还有一个RutaBasic注释,并且字典查找可以在这些标记之间切换。因此,老虎和猴子应该注释,你的问题中的例子应该实际上工作(我测试过)。您可能需要一些postprossesing,以包括SPECIALANIMAL

我不得不提到在字典查找(多树词列表,TRIE)中也有使用编辑距离的功能。但是,这种功能还没有维持好几年。它也应该支持不同的权重来进行特定的替换。我不知道这是否模糊。

免责声明:我是UIMA鲁塔开发商