布式搜索elasticsearch 中文分词集成
对于索引可能最关系的就是分词了 一般对于es 来说默认的smartcn 但效果不是很好
一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行:
安装ik插件
plugin -install medcl/elasticsearch-analysis-ik/1.1.0
下载ik相关配置词典文件到config目录
cd config
wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate
unzip ik.zip
rm ik.zip
分词配置
ik分词配置,在elasticsearch.yml文件中加上
1
2
3
4
5
6
|
index: analysis:
analyzer:
ik:
alias: [ik_analyzer]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
|
或
1
|
index.analysis.analyzer.ik.type : “ik” |
安装mmseg插件:
bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0
下载相关配置词典文件到config目录
cd config
wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate
unzip mmseg.zip
rm mmseg.zip
mmseg分词配置,也是在在elasticsearch.yml文件中
1
2
3
4
5
6
|
index: analysis:
analyzer:
mmseg:
alias: [news_analyzer, mmseg_analyzer]
type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider
|
或
1
|
index.analysis.analyzer.default.type : "mmseg" |
mmseg分词还有些更加个性化的参数设置如下
1
2
3
4
5
6
7
8
9
10
11
12
|
index: analysis:
tokenizer:
mmseg_maxword:
type: mmseg
seg_type: "max_word"
mmseg_complex:
type: mmseg
seg_type: "complex"
mmseg_simple:
type: mmseg
seg_type: "simple"
|
这样配置完后插件安装完成,启动es就会加载插件。
定义mapping
在添加索引的mapping时就可以这样定义分词器
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
{ "page":{
"properties":{
"title":{
"type":"string",
"indexAnalyzer":"ik",
"searchAnalyzer":"ik"
},
"content":{
"type":"string",
"indexAnalyzer":"ik",
"searchAnalyzer":"ik"
}
}
}
} |
indexAnalyzer为索引时使用的分词器,searchAnalyzer为搜索时使用的分词器。
java mapping代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
XContentBuilder content = XContentFactory.jsonBuilder().startObject() .startObject( "page" )
.startObject( "properties" )
.startObject( "title" )
.field( "type" , "string" )
.field( "indexAnalyzer" , "ik" )
.field( "searchAnalyzer" , "ik" )
.endObject()
.startObject( "code" )
.field( "type" , "string" )
.field( "indexAnalyzer" , "ik" )
.field( "searchAnalyzer" , "ik" )
.endObject()
.endObject()
.endObject()
.endObject()
|
测试分词可用调用下面api,注意indexname为索引名,随便指定一个索引就行了
http://localhost:9200/indexname/_analyze?analyzer=ik&text=测试elasticsearch分词器
附:
ik分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-ik
mmseg分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-mmseg
配置好的es版本,地址如下:https://github.com/medcl/elasticsearch-rtf
http://my.oschina.net/sunzy/blog/195341