ICUTransformFilter在SOLR

问题描述:

我得到下面的输出后,我在SOLRICUTransformFilter在SOLR

สวัสดี配置ICUTransformFilter转化为s̄wạs̄dī 无法理解也将其转换为哪个脚本?我在架构配置看起来像下面

<analyzer type="index"> 
    <tokenizer class="solr.ICUTokenizerFactory"/> 
    <filter class="solr.ICUTransformFilterFactory" id="Thai-Latin" /> 
    <filter class="solr.ICUTransformFilterFactory" id="NFD; [:Nonspacing Mark:] Remove; NFC" /> 
    <filter class="solr.BeiderMorseFilterFactory" /> 
</analyzer> 

它说,泰国拉丁,但是当我使用谷歌翻译器将其转换为“奴” enter image description here

这似乎是从my Thai example复制,其中的序列分析仪已被解释。该配置用于搜索“sawadika”之类的内容,并获取包含原始单词的实际泰语文本,该单词听起来像是(女性发起的)问候语。

你似乎在翻译(泰语到拼音匹配/关闭拉丁语)时会混淆翻译(泰语到谷歌翻译中的英语)。音译就是这里发生的事情(实际上Google也是这样)。总之,在第一台分析仪之后,你仍然有色调标记,试图显示泰语所具有的升/降等音调。第二个分析仪应该将它们移除以得到swasdi。最后的分析器会做一些语音扩展来匹配其他替代拼写。

+0

有没有一种方法或例子,其中ICUTokenizer可以作为java程序运行 – user2478236

+0

http://*.com/questions/43377330/tokenize-thai-sentence-with-icutokenizer-java/43450726#43450726 – user2478236