lmwtzw6u5l0 发表于 2019-1-29 11:19:32

分布式搜索elasticsearch中文分词集成 .

  elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行:
安装ik插件:



plugin -install medcl/elasticsearch-analysis-ik/1.1.0






plugin -install medcl/elasticsearch-analysis-ik/1.1.0
  下载ik相关配置词典文件到config目录



cd config




[*]wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate
[*]unzip ik.zip
[*]rm ik.zip




cd config
wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate
unzip ik.zip
rm ik.zip
  安装mmseg插件:



bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0






bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0

  下载相关配置词典文件到config目录



cd config




[*]wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate
[*]unzip mmseg.zip
[*]rm mmseg.zip




cd config
wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate
unzip mmseg.zip
rm mmseg.zip

  分词配置
  ik分词配置,在elasticsearch.yml文件中加上



index:




[*]analysis:                     
[*]    analyzer:      
[*]      ik:
[*]          alias:
[*]          type: org.elasticsearch.index.analysis.IkAnalyzerProvider




index:
analysis:                  
analyzer:      
ik:
alias:
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
  或



index.analysis.analyzer.ik.type : “ik”






index.analysis.analyzer.ik.type : “ik”
  这两句的意义相同
mmseg分词配置,也是在在elasticsearch.yml文件中



index:




[*]analysis:
[*]    analyzer:
[*]      mmseg:
[*]          alias:
[*]          type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider




index:
analysis:
analyzer:
mmseg:
alias:
type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider

  或



index.analysis.analyzer.default.type : "mmseg"






index.analysis.analyzer.default.type : "mmseg"

  mmseg分词还有些更加个性化的参数设置如下



index:




[*]analysis:
[*]    tokenizer:
[*]      mmseg_maxword:
[*]          type: mmseg
[*]          seg_type: "max_word"
[*]      mmseg_complex:
[*]          type: mmseg
[*]          seg_type: "complex"
[*]      mmseg_simple:
[*]          type: mmseg
[*]          seg_type: "simple"




index:
analysis:
tokenizer:
mmseg_maxword:
type: mmseg
seg_type: "max_word"
mmseg_complex:
type: mmseg
seg_type: "complex"
mmseg_simple:
type: mmseg
seg_type: "simple"

  这样配置完后插件安装完成,启动es就会加载插件。
  定义mapping
  在添加索引的mapping时就可以这样定义分词器



{




[*]   "page":{
[*]      "properties":{
[*]         "title":{
[*]            "type":"string",
[*]            "indexAnalyzer":"ik",
[*]            "searchAnalyzer":"ik"
[*]         },
[*]         "content":{
[*]            "type":"string",
[*]            "indexAnalyzer":"ik",
[*]            "searchAnalyzer":"ik"
[*]         }
[*]      }
[*]   }
[*]}




{
"page":{
"properties":{
"title":{
"type":"string",
"indexAnalyzer":"ik",
"searchAnalyzer":"ik"
},
"content":{
"type":"string",
"indexAnalyzer":"ik",
"searchAnalyzer":"ik"
}
}
}
}
  indexAnalyzer为索引时使用的分词器,searchAnalyzer为搜索时使用的分词器。
  java mapping代码如下:



XContentBuilder content = XContentFactory.jsonBuilder().startObject()




[*]      .startObject("page")
[*]          .startObject("properties")         
[*]            .startObject("title")
[*]            .field("type", "string")            
[*]            .field("indexAnalyzer", "ik")
[*]            .field("searchAnalyzer", "ik")
[*]            .endObject()   
[*]            .startObject("code")
[*]            .field("type", "string")         
[*]            .field("indexAnalyzer", "ik")
[*]            .field("searchAnalyzer", "ik")
[*]            .endObject()      
[*]          .endObject()
[*]         .endObject()
[*]       .endObject()




XContentBuilder content = XContentFactory.jsonBuilder().startObject()
.startObject("page")
.startObject("properties")      
.startObject("title")
.field("type", "string")         
.field("indexAnalyzer", "ik")
.field("searchAnalyzer", "ik")
.endObject()
.startObject("code")
.field("type", "string")         
.field("indexAnalyzer", "ik")
.field("searchAnalyzer", "ik")
.endObject()   
.endObject()
.endObject()
.endObject()
  定义完后操作索引就会以指定的分词器来进行分词。
  附:
  ik分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-ik
  mmseg分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-mmseg
  如果觉得配置麻烦,也可以下载个配置好的es版本,地址如下:https://github.com/medcl/elasticsearch-rtf



页: [1]
查看完整版本: 分布式搜索elasticsearch中文分词集成 .