设为首页 收藏本站
查看: 1003|回复: 0

[经验分享] Solr中文分词配置(2)

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2015-7-17 09:17:01 | 显示全部楼层 |阅读模式
1、下载分词器:http://code.google.com/p/mmseg4j/
     2、将解压后的mmseg4j-1.8.2目录下的mmseg4j-all-1.8.2.jar拷贝到Tomcat _HOME\webapps\solr\WEB-INF\lib目录下。
     3、添加词库:在C:\solr-tomcat\solr目录下新建dic文件夹,将解压后的sogou-dic\data目录下的words.dic拷贝到C:\solr-tomcat\solr\dic目录下。
     4、更改schema.xml(c:\solr-tomcat\solr\conf\)文件,使分词器起到作用。更改内容为:


Xml代码 http://dzq2008.javaeye.com/javascripts/syntaxhighlighter/clipboard_new.swf?clipboard=%3Ctypes%3E%0A%20%E2%80%A6%E2%80%A6%0A%09%3C!--mmseg4j%20field%20types--%3E%0A%09%20%20%20%3CfieldType%20name%3D%22textComplex%22%20class%3D%22solr.TextField%22%20positionIncrementGap%3D%22100%22%20%3E%20%20%0A%09%09%09%3Canalyzer%3E%20%20%0A%09%09%09%20%20%20%3Ctokenizer%20class%3D%22com.chenlb.mmseg4j.solr.MMSegTokenizerFactory%22%20mode%3D%22complex%22%20dicPath%3D%22C%3A%5Csolr-tomcat%5Csolr%5Cdic%22%2F%3E%20%20%0A%09%09%09%20%20%20%3Cfilter%20class%3D%22solr.LowerCaseFilterFactory%22%2F%3E%20%20%0A%20%20%20%20%20%20%20%20%20%20%20%3C%2Fanalyzer%3E%20%20%0A%09%20%20%20%3C%2FfieldType%3E%20%20%0A%0A%09%20%3CfieldType%20name%3D%22textMaxWord%22%20class%3D%22solr.TextField%22%20positionIncrementGap%3D%22100%22%20%3E%20%20%0A%20%20%20%20%20%20%20%20%3Canalyzer%3E%20%20%0A%20%20%20%20%20%20%20%20%20%20%20%20%3Ctokenizer%20class%3D%22com.chenlb.mmseg4j.solr.MMSegTokenizerFactory%22%20mode%3D%22max-word%22%20dicPath%3D%22C%3A%5Csolr-tomcat%5Csolr%5Cdic%22%2F%3E%20%20%0A%20%20%20%20%20%20%20%20%20%20%20%20%3Cfilter%20class%3D%22solr.LowerCaseFilterFactory%22%2F%3E%20%20%0A%20%20%20%20%20%20%20%20%3C%2Fanalyzer%3E%20%20%0A%20%20%20%20%20%3C%2FfieldType%3E%20%20%0A%20%20%20%20%20%0A%09%20%3CfieldType%20name%3D%22textSimple%22%20class%3D%22solr.TextField%22%20positionIncrementGap%3D%22100%22%20%3E%20%20%0A%20%20%20%20%20%20%20%3Canalyzer%3E%20%20%0A%20%20%20%20%20%20%20%20%20%20%20%3Ctokenizer%20class%3D%22com.chenlb.mmseg4j.solr.MMSegTokenizerFactory%22%20mode%3D%22simple%22%20dicPath%3D%22C%3A%5Csolr-tomcat%5Csolr%5Cdic%22%2F%3E%20%20%0A%20%20%20%20%20%20%20%20%20%20%20%3Cfilter%20class%3D%22solr.LowerCaseFilterFactory%22%2F%3E%20%20%0A%20%20%20%20%20%20%20%3C%2Fanalyzer%3E%20%20%0A%20%20%20%20%20%3C%2FfieldType%3E%0A%09%20%E2%80%A6%E2%80%A6%0A%20%3C%2Ftypes%3E%20%0A  


DSC0000.gif DSC0001.gif 代码

  
……  
      
           
               
                  
                  
               
           
         
            
               
               
            
         
         
           
               
               
           
      
     ……  
   
  
  ……                                                                                                                                                                             ……       注:dicPath="C:\solr-tomcat\solr\dic"是你的词库路径,我的是放在了C:\solr-tomcat\solr\dic目录下。  
  



Xml代码 http://dzq2008.javaeye.com/javascripts/syntaxhighlighter/clipboard_new.swf?clipboard=%3Cfields%3E%0A%09%E2%80%A6%E2%80%A6%0A%09%3Cfield%20name%3D%22simple%22%20type%3D%22textSimple%22%20indexed%3D%22true%22%20stored%3D%22true%22%20multiValued%3D%22true%22%2F%3E%20%20%0A%09%09%3Cfield%20name%3D%22complex%22%20type%3D%22textComplex%22%20indexed%3D%22true%22%20stored%3D%22true%22%20multiValued%3D%22true%22%2F%3E%20%20%0A%09%3Cfield%20name%3D%22text%22%20type%3D%22textMaxWord%22%20indexed%3D%22true%22%20stored%3D%22true%22%20multiValued%3D%22true%22%2F%3E%0A%09%E2%80%A6%E2%80%A6%0A%3C%2Ffields%3E%0A
代码

  
    ……  
        
            
      
    ……  
    注:之前的 Filed=“text”有值,要注意屏蔽以前的定义


Xml代码 http://dzq2008.javaeye.com/javascripts/syntaxhighlighter/clipboard_new.swf?clipboard=%3CcopyField%20source%3D%22simple%22%20dest%3D%22text%22%2F%3E%0A%3CcopyField%20source%3D%22complex%22%20dest%3D%22text%22%2F%3E%0A  

  
    重启你的tomcat 。
访问:http://localhost:8983/solr/admin/analysis.jsp可以看 mmseg4j 的分词效果。在 Field 的下拉菜单选择 name,然后在应用输入 complex。分词的结果,如下图:
DSC0002.jpg
  呵呵,可以运行起来了,那就添加个文档试试吧,在解压后的apache-solr-1.4.0\example\exampledocs目录下创建 mmseg4j-solr-demo-doc.xml 文档,内容如下:



Xml代码 http://dzq2008.javaeye.com/javascripts/syntaxhighlighter/clipboard_new.swf?clipboard=%20%20%3Cadd%3E%20%20%0A%20%20%20%20%20%20%3Cdoc%3E%20%20%0A%20%20%20%20%20%20%20%20%20%20%3Cfield%20name%3D%22id%22%3E1%3C%2Ffield%3E%20%20%0A%20%20%20%20%20%20%20%20%20%20%3Cfield%20name%3D%22text%22%3E%E6%98%A8%E6%97%A5%2C%E8%AE%B0%E8%80%85%E4%BB%8E%E8%A7%A3%E6%94%BE%E5%86%9B%E6%80%BB%E5%8F%82%E8%B0%8B%E9%83%A8%E7%9B%B8%E5%85%B3%E9%83%A8%E9%97%A8%E8%8E%B7%E6%82%89%2C%E6%88%AA%E8%87%B33%E6%9C%8828%E6%97%A5%2C%E8%A7%A3%E6%94%BE%E5%86%9B%E5%92%8C%E6%AD%A6%E8%AD%A6%E9%83%A8%E9%98%9F%E7%B4%AF%E8%AE%A1%E5%87%BA%E5%8A%A87.2%E4%B8%87%E4%BA%BA%E6%AC%A1%E5%AE%98%E5%85%B5%E6%94%AF%E6%8F%B4%E5%9C%B0%E6%96%B9%E6%8A%97%E6%97%B1%E6%95%91%E7%81%BE%E3%80%82%E7%BB%84%E7%BB%87%E6%B0%91%E5%85%B5%E9%A2%84%E5%A4%87%E5%BD%B9%E4%BA%BA%E5%91%9820.2%E4%B8%87%E4%BA%BA%20%E6%AC%A1%E6%94%AF%E6%8F%B4%E5%9C%B0%E6%96%B9%E6%8A%97%E6%97%B1%E6%95%91%E7%81%BE%E3%80%82%3C%2Ffield%3E%20%20%0A%20%20%20%20%20%20%3C%2Fdoc%3E%20%20%0A%20%20%20%20%20%20%3Cdoc%3E%20%20%0A%20%20%20%20%20%20%20%20%20%20%3Cfield%20name%3D%22id%22%3E2%3C%2Ffield%3E%20%20%0A%20%20%20%20%20%20%20%20%20%20%3Cfield%20name%3D%22text%22%3E%E4%B8%8B%E5%8D%8A%E5%B9%B4%E6%88%BF%E4%BB%B7%E8%B0%83%E6%95%B4%E5%B0%B1%E6%98%AF%E6%8C%A4%E6%B0%B4%E5%88%86%20%E6%88%BF%E4%BB%B7%E5%9B%9E%E4%B8%8D%E5%88%B0%E5%8E%BB%E5%B9%B4%E6%B0%B4%E5%B9%B3%E3%80%82%3C%2Ffield%3E%20%20%0A%20%20%20%20%20%20%3C%2Fdoc%3E%20%20%0A%20%20%20%20%20%20%3Cdoc%3E%20%20%0A%20%20%20%20%20%20%20%20%20%20%3Cfield%20name%3D%22id%22%3E3%3C%2Ffield%3E%20%20%0A%20%20%20%20%20%20%20%20%20%20%3Cfield%20name%3D%22text%22%3Esolr%E6%98%AF%E5%9F%BA%E4%BA%8ELucene%20Java%E6%90%9C%E7%B4%A2%E5%BA%93%E7%9A%84%E4%BC%81%E4%B8%9A%E7%BA%A7%E5%85%A8%E6%96%87%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E%EF%BC%8C%E7%9B%AE%E5%89%8D%E6%98%AFapache%E7%9A%84%E4%B8%80%E4%B8%AA%E9%A1%B9%E7%9B%AE%E3%80%82%3C%2Ffield%3E%20%20%0A%20%20%20%20%20%20%3C%2Fdoc%3E%20%20%0A%20%20%20%20%20%20%3Cdoc%3E%20%20%0A%20%20%20%20%20%20%20%20%20%20%3Cfield%20name%3D%22id%22%3E4%3C%2Ffield%3E%20%20%0A%20%20%20%20%20%20%20%20%20%20%3Cfield%20name%3D%22text%22%3E%E4%B8%AD%E5%9B%BD%E4%BA%BA%E6%B0%91%E9%93%B6%E8%A1%8C%E6%98%AF%E4%B8%AD%E5%8D%8E%E4%BA%BA%E6%B0%91%E5%85%B1%E5%92%8C%E5%9B%BD%E7%9A%84%E4%B8%AD%E5%A4%AE%E9%93%B6%E8%A1%8C%E3%80%82%3C%2Ffield%3E%20%20%0A%20%20%20%20%20%20%3C%2Fdoc%3E%20%20%0A%20%20%3C%2Fadd%3E%0A
代码

  
   
        
        1   
        昨日,记者从解放军总参谋部相关部门获悉,截至3月28日,解放军和武警部队累计出动7.2万人次官兵支援地方抗旱救灾。组织民兵预备役人员20.2万人 次支援地方抗旱救灾。   
        
        
        2   
        下半年房价调整就是挤水分 房价回不到去年水平。   
        
        
        3   
        solr是基于Lucene Java搜索库的企业级全文搜索引擎,目前是apache的一个项目。   
        
        
        4   
        中国人民银行是中华人民共和国的中央银行。   
      
   
        5  
        京华时报2009年1月23日报道 昨天,受一股来自中西伯利亚的强冷空气影响,本市出现大风降温天气,白天最高气温只有零下7摄氏度,同时伴有6到7级的偏北风。  
      
      
        6  
        昨日金正日抵达长春市,进行两天的长春市内电话系统考察。  
      
      
        7  
        陈教授正在研究生命起源,他的研究生正在打球。  
      
      
        8  
        中国人民银行是中华人民共和国的中央银行。  
        
                          1             昨日,记者从解放军总参谋部相关部门获悉,截至3月28日,解放军和武警部队累计出动7.2万人次官兵支援地方抗旱救灾。组织民兵预备役人员20.2万人 次支援地方抗旱救灾。                               2             下半年房价调整就是挤水分 房价回不到去年水平。                               3             solr是基于Lucene Java搜索库的企业级全文搜索引擎,目前是apache的一个项目。                               4             中国人民银行是中华人民共和国的中央银行。                 然后在 cmd 下运行 post.jar,如下:
  F:\lucene\solr\apache-solr-1.4.0\example\exampledocs>java  -Durl=http://localhost:8983/solr/update -Dcommit=yes -jar post.jar  mmseg4j-solr-demo-doc.xml  (注意:F:\lucene\solr 要根据你自己的实际情况而定,solr update的访问端口也是一样,以个人为准)
  
  查看是否有数据,访问:http://localhost:8983/solr/admin/ 在Query String: 中输入“中国”,显示如下图所示:
DSC0003.jpg
呵呵,成功了。至于schema.xml中的配置属性会在下一章中进行详细的介绍。
  
  [Solr分词顺序]
  Solr建立索引和对关键词进行查询都得对字串进行分词,在向索引库中添加全文检索类型的索引的时候,Solr会首先用空格进行分词,然后把分词结果依次使用指定的过滤器进行过滤,最后剩下的结果才会加入到索引库中以备查询。分词的顺序如下:
索引  
1:空格whitespaceTokenize
2:过滤词(停用词,如:on、of、a、an等) StopFilter
3:拆字WordDelimiterFilter
4:小写过滤LowerCaseFilter
5:英文相近词EnglishPorterFilter
6:去除重复词RemoveDuplicatesTokenFilter
查询  
1:查询相近词
2:过滤词
3:拆字
4:小写过滤
5:英文相近词
6:去除重复词
以上是针对英文,中文的除了空格,其他都类似

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-87495-1-1.html 上篇帖子: Solr的多核配置和分布式 下篇帖子: Solr入门之(6)配置文件solrconfig.xml
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表