小风儿 发表于 2019-1-29 10:30:28

使用HanLP增强Elasticsearch分词功能

  anlp-ext 插件源码地址:http://git.oschina.net/hualongdata/hanlp-ext 或 https://github.com/hualongdata/hanlp-ext
  Elasticsearch 默认对中文分词是按“字”进行分词的,这是肯定不能达到我们进行分词搜索的要求的。官方有一个 SmartCN 中文分词插件,另外还有一个 IK 分词插件使用也比较广。但这里,我们采用 HanLP 这款 自然语言处理工具 来进行中文分词。
  Elasticsearch
  Elasticsearch 的默认分词效果是惨不忍睹的。
http://i2.运维网.com/images/blog/201810/08/488593028020bdba3a3035a300943271.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=
  输出:
http://i2.运维网.com/images/blog/201810/08/37050529bc62c8494474cba0fd6383dc.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=
http://i2.运维网.com/images/blog/201810/08/2514c615dac3c9a5e1c6bc32fc9308ce.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=
http://i2.运维网.com/images/blog/201810/08/58a3c5caabfb369594fd71a9b887fbd8.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=
  可以看到,默认是按字进行分词的。
  elasticsearch-hanlp
  HanLP
  HanLP 是一款使用 Java 实现的优秀的,具有如下功能:
  中文分词
  词性标注
  命名实体识别
  关键词提取
  自动摘要
  短语提取
  拼音转换
  简繁转换
  文本推荐
  依存句法分析
  语料库工具
  安装 elasticsearch-hanlp(安装见:https://github.com/hualongdata/hanlp-ext/tree/master/es-plugin)插件以后,我们再来看看分词效果。
http://i2.运维网.com/images/blog/201810/08/67e5bc198856ac90832028fc4bb70603.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=
  输出:
http://i2.运维网.com/images/blog/201810/08/e36319649f8c0ea9e5c210a93d4a2f11.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=
  HanLP 的功能不止简单的中文分词,有很多功能都可以集成到 Elasticsearch 中。
  文章来源于开源中国的羊八井

页: [1]
查看完整版本: 使用HanLP增强Elasticsearch分词功能