设为首页 收藏本站
查看: 1464|回复: 0

[经验分享] 在Solr中配置和使用ansj分词

[复制链接]

尚未签到

发表于 2015-7-16 14:01:17 | 显示全部楼层 |阅读模式
  在上一节【编译Ansj之Solr插件】中介绍如何编译ansj分词在solr(lucene)环境中使用的接口,本章将介绍如何在solr中使用ansj,其步骤主要包括:下载或者编译ansj和nlp-lang等jar包、在schema中配置相关类型、将ansj和nlp-lang等jar包配置到solr中、测试ansj分词效果。
  一、下载或者编译ansj-seg和nlp-lang等jar包。
  1、您可以到 http://maven.ansj.org/org/ansj/ansj_seg/  | http://maven.ansj.org/org/nlpcn/ 中下载相关jar包。
  ansj-seg相关jar包,如下图所示:
DSC0000.png
DSC0001.png
  nlp-lang 是ansj-seg分词中关于自然语言处理相关工具类,功能比较强大:
DSC0002.png
DSC0003.png
  2、下载相关源码,自己编译。
  这种是相对复杂的,但是如果长久使用,这种是很有必要的。对于这种优秀的分词,我们更有必要好好研究一番。
  github地址:https://github.com/NLPchina/ansj_seg
  git客户端地址:http://git-scm.com/download/
  git下载源码命令:git clone  https://github.com/NLPchina/ansj_seg.git
  下载后的文件结构如下:
DSC0004.png
  可见代码是用maven组中管理的。对于maven的安装配置本文旧粗略带过,主要包括:
  下载maven相关包,解压:
DSC0005.png
  配置环境变量M2_HOME:C:\apache-maven-3.2.1
  配置PATHb环境变量:%M2_HOME%\bin;
  mvn常有命令:mvn clean install#清理本地缓存、下载依赖jar包 可以添加-DskipTests=true忽略单元测试;mvn eclipse:clean #清理mvn生成的eclipse工程;mvn eclipse:eclipse #根据pom.xml生成eclipse工程。
  步骤:
  在源码根路径下执行: mvn clean install -DskipTests=true  命令,在target目录下生成jar包。
DSC0006.png
  target目录:
DSC0007.png
  同义的道理,可以编译nlp-lang jar包,地址:https://github.com/NLPchina/nlp-lang   
  二、在solr schema.xml中配置好ansj字段类型。
  1、创建ansj类型。
  找到schema.xml,添加ansj类型text_ansj: 














  org.ansj.solr.AnsjTokenizerFactory 是我们编译的ansj-lucene插件。
  2、配置需要索引的字段。    



   















  三、在solr环境中配置好ansj。
  在编译好的ansj-seg、nlp-lang、ansj_lucene4_plug 放到solr war包的lib下。
DSC0008.png
DSC0009.png
  配置ansj相关词库和配置文件,这些配置文件在ansj源码目录下:
DSC00010.png
  把这三个配置文件放到solr程序WEB-INF/classes目录下,classes目录不存在则手动创建。
DSC00011.png
  四、测试ansj分词效果。
  ansj配置好了以后,把solr所在的tomcat启动一下。用solr管理页面查看效果:
  1、测试分词 "南京市长江大桥”
DSC00012.png
  备注:在文本框中输入“南京市长江大桥” 点击右边蓝色的按钮“Analyse Values”
  
  
  文章转载,请注明出处:http://www.iyunv.com/likehua/p/4481219.html
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-87361-1-1.html 上篇帖子: Solr Cache使用介绍及分析 下篇帖子: 搜索引擎 apache-solr
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表