Solr----3、solr7.2.0配置IKAnalyzer和自带的中文分词器
上篇文章中讲解如何安装单机版的solr,作为国内的网站,分析肯定是配置中文分析器!
在solr4.4中我们使用的是IKAnalyzer中文分词器V2012版,现在都是2017年了啊!solr7本身提供了更好的方式! 在solr7.2.0本身提供中文的分词jar包,只需要我们进行简单的配置即可!但是在这里我还是会介绍IKAnalyzer中文分词器配置。
1. solr7.2.0自带的中文分词器
<analyzer type="index">
<tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
</analyzer>
</fieldType>
2. solr7.2.0配置ik中文分词器
IK分词器:
- ext.dic为扩展字典
- stopword.dic为停止词字典
- IKAnalyzer.cfg.xml为配置文件
-
solr-analyzer-ik-5.1.0.jar ik-analyzer-solr5-5.x.jar为分词jar包。
-
1:将IK分词器 JAR 包拷贝到
Tomcat8\webapps\solr\WEB-INF\lib下
-
2:将词典 配置文件拷贝到
Tomcat8\webapps\solr\WEB-INF\classes下
-
3: 更改
在Tomcat8\solr_h\solrhome\solr_core\conf找到managed-schema
配置文件,添加以下: -
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
</analyzer>
</fieldType>