忽略检查搜索中的特殊字符（tittles）

问题描述：

使用使用Umbraco v6，检查搜索（并非完整的Lucene查询）。这是一个拉丁/南美网站。我问过我的大学他们是如何输入search/URL的标题，并且他们都表示他们没有，他们只是使用“常规”字符（A-Z，a-z）。忽略检查搜索中的特殊字符（tittles）

我知道如何去掉特殊字符OUT的字符串传递给Examine时，但我需要另一种方式，例如检查从属性中删除特殊字符以匹配查询。我有很多名称中含有标题的“节点”（这是我正在搜索的属性之一）。

帖子，我已经研究：

http://shazwazza.com/categories/Examine?p=2
Ignore special characters in Examine
https://groups.google.com/forum/#!topic/umbraco-dev/W6cWyPOc43Y

我试着写luence查询（或因此我认为），但我没有得到任何命中。

// q is my query from QueryString 
var searcher = ExamineManager.Instance.SearchProviderCollection["CustomSearchSearcher"]; 

//var query = searcher.CreateSearchCriteria().Field("nodeName", q).Or().Field("description", q).Compile(); 
//var searchResults = searcher.Search(query).OrderByDescending(x => x.Score).TakeWhile(x => x.Score > 0.05f); 

var searchResults = searcher.Search(Global.RemoveSpecialCharacters(q), true).OrderByDescending(x => x.Score).TakeWhile(x => x.Score > 0.05f);

全局类

public static string RemoveSpecialCharacters(string str) 
    { 
     StringBuilder sb = new StringBuilder(); 
     for (int i = 0; i < str.Length; i++) 
     { 
      if ((str[i] >= '0' && str[i] <= '9') 
        || (str[i] >= 'A' && str[i] <= 'z' || (str[i] == '.' || str[i] == '_')) 
       || str[i] == 'á' || str[i] == 'é' || str[i] == 'í' || str[i] == 'ñ' || str[i] == 'ó' || str[i] == 'ú') 
      { 
       sb.Append(str[i]); 
      } 
     } 

     return sb.ToString(); 
    }

如上所述，我需要从Lucene的去除特殊字符（地契），而不是查询传入

来自：https://our.umbraco.org/documentation/reference/searching/examine/overview-explanation

我我也读过关于“分析器”的内容，但是我从来没有和他们合作过，也不知道哪一个可以得到/安装/添加到VS等等。是不是更好的方法来解决这个问题？

有人吗？我一直在研究语言分析器，但我不知道如何将其实施到我的项目 –

答

定制分析仪就是答案。

这是回答的一把umbraco论坛在这里：https://our.umbraco.org/forum/developers/extending-umbraco/16396-Examine-and-accents-for-portuguese-language

做一个分析仪，剥离所有的特殊字符：

public class CIAIAnalyser : Analyzer 
{ 
    public override TokenStream TokenStream(string fieldName, System.IO.TextReader reader) 
    { 
     StandardTokenizer tokenizer = new StandardTokenizer(Lucene.Net.Util.Version.LUCENE_29, reader); 

     tokenizer.SetMaxTokenLength(255); 
     TokenStream stream = new StandardFilter(tokenizer); 
     stream = new LowerCaseFilter(stream); 
     return new ASCIIFoldingFilter(stream); 

    } 

}

然后你做了搜索输入相同。

public class CleanAccent 
{ 
    public static string RemoveDiacritics(string input) 
    { 
     // Indicates that a Unicode string is normalized using full canonical decomposition. 

     if (String.IsNullOrEmpty(input)) return input; 

     string inputInFormD = input.Normalize(NormalizationForm.FormD); 
     var sb = new StringBuilder(); 

     for (int idx = 0; idx < inputInFormD.Length; idx++) 
     { 
      UnicodeCategory uc = CharUnicodeInfo.GetUnicodeCategory(inputInFormD[idx]); 
      if (uc != UnicodeCategory.NonSpacingMark) 
      { 
       sb.Append(inputInFormD[idx]); 
      } 
     } 

     return (sb.ToString().Normalize(NormalizationForm.FormC)); 
    } 

}

然后在ExamineSettings.config中引用分析器。

出色的发现。非常感谢！ –

@PeterSmith你知道如何在Umbraco 7中做到这一点吗？不能使它工作。解析器错误消息：提供者必须实现类“Examine.Providers.BaseSearchProvider”。 – Marco

忽略检查搜索中的特殊字符（tittles）

相关推荐