设为首页 收藏本站
查看: 1282|回复: 0

[经验分享] Solr 3.5 + Tomcat7 + mmseg4j + 搜狗词库

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2015-7-16 11:14:51 | 显示全部楼层 |阅读模式
  机器上已安装 : Tomcat 7    jdk1.7    mysql 5.0


  • 访问 http://www.apache.org/dyn/closer.cgi/lucene/solr , 在这个网址里选择一个路径 , 下载 solr 3.5 的版本
  • solr3.5 在本机解压缩以后 , 把 apache-solr-3.5.0\example\webapps  目录下的  solr.war  文件拷贝到  Tomcat 7 的webapps 目录下
  • 启动Tomcat7,自动解压solr.war包。然后在 Tomcat 7\webapps\solr  目录里 新建一个 文件夹  conf
  • 把 solr3.5 本机解压缩文件夹  apache-solr-3.5.0\example  下的 multicore 文件夹 拷贝到  Tomcat 7\webapps\solr\conf  目录下
  • 在 Tomcat 7\conf\Catalina\localhost  目录下新建一个  solr.xml 文件 , 里面的内容如下


    1
    2
    3
    4   
    5
    6     
    7
  • 访问你的 solr 项目   localhost:1187/solr  会显示出两个  core  ,  solr 正常运行
  • 配置分词 , 使用的是  mmseg4j搜狗词库
    下载地址 : http://code.google.com/p/mmseg4j/   ,  http://code.google.com/p/mmseg4j/downloads/detail?name=data.zip&can=2&q
  • 把本地下载的 mmseg4j  解压缩 , 把里面的mmseg4j-all-1.8.5.jar 文件 拷贝到 Tomcat 7\webapps\solr\WEB-INF\lib 目录下
  • 在  Tomcat 7\webapps\solr  目录下新建一个  dic  文件夹 , 把 新下载的  词库 拷贝到 dic 目录下
  • 在 \Tomcat 7\webapps\solr\conf\multicore\core0\conf\schema.xml  文件的  types 节点里 添加如下节点 :



            
                
                
            
       
       
            
                
                
            
       
       
            
                
                
            
       
  • 在 \Tomcat 7\webapps\solr\conf\multicore\core0\conf\schema.xml  文件的  fields 节点里 添加如下节点 :





  • 因为 solr3.5 里有两个 core , 所以针对 core1 重复 10, 11 两步
  • 对分词进行测试 , 访问  http://localhost:1187/solr/core0/admin/analysis.jsp?highlight=on

    • Field[Name]   输入   :  complex  
    • Field Value(index)   输入  :   中国银行第一分行  ,   Field Value(index)  下面的 verbose outpu 点选
    • 点击     Analyze  按钮 ,  查看分词结果    :  中国银行 |  第一 |  分行

  • 此时 Solr3.5 已经可以进行 分词 , 接下来配置 solr 3.5 连接  mysql 数据库 , 生成索引 , 进行分词

    • 下载 java 的 mysql 驱动 , 本机解压 mysql-connector-java-5.1.18-bin.jar,  然后拷贝到 Tomcat 7\webapps\solr\WEB-INF\lib  目录下
    • 在 \Tomcat 7\webapps\solr  目录下 新建  db  文件夹
    • 在 \Tomcat 7\webapps\solr\db 文件夹下面新建一个  db-data-config.xml 文件 , 内容如下 :



         
         
              
                  
                  
              
         


    • 在 Tomcat 7\webapps\solr\conf\multicore\core0\conf 目录下的 solrconfig.xml 文件里 , 添加如下代码 :



         
            D:/Tomcat 7/webapps/solr/db/db-data-config.xml
         
        

    • 在Tomcat 7\webapps\solr\conf\multicore\core1\conf\solrconfig.xml   路径里重复 14.4
    • 把本地下载解压的 solr3.5 文件里 , dist 目录下的  apache-solr-dataimporthandler-3.5.0.jar 和 apache-solr-dataimporthandler-extras-3.5.0.jar  Tomcat 7\webapps\solr\WEB-INF\lib  目录下
    • solr3.5 连接 mysql 已经配置完成 , 测试读取 mysql 生成 索引 , 访问 :   http://localhost:1187/solr/core0/dataimport?command=full-import
    • 测试分词查询 , 访问  http://localhost:1187/solr/core0/admin/  查询数据库里索引列里有的词

  注意: 这仅仅是配置 solr3.5 连接 mysql 生成索引 , 可以执行正常 词语  的查询 , 但是不能执行  对搜索短语的分词 查询
  multicore  目录下面多个 core 文件夹 , 每一个都是一个接口 , 有独立的配置文件 , 处理某一类数据 。
  multicore/core0/conf/  目录下的  schema.xml  文件 相当于数据表配置文件 , 它定义了加入索引的数据的数据类型 。文件里有一个 id 的配置 , 这里将 id 字段作为索引文档的唯一标示符 , 非常重要 。
  
  FieldType 类型 , name 是这个 FieldType 的名称 , class 指向了 org.apache.solr.analysis 包里面对应的 class 名称 , 用来定义这个类型的定义 。在 FieldType 定义的时候最重要的就是定义这个类型的数据在建立索引和进行查询的时候要使用的分析器analyzer,包括分词和过滤 。
  Fields 字段 :  结点内定义具体的字段(类似数据库中的字段) , 就是 field , 包含 name , type(为之前定义过的各种FieldType) , indexed(是否被索引) , stored(是否被存储) , multiValued(是否有多个值)
  copeField(赋值字段): 建立一个拷贝字段 , 将所有的全文字段复制到一个字段中 , 以便进行统一的检索 。
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-87248-1-1.html 上篇帖子: 三、Solr多核心及分词器(IK)配置 下篇帖子: 在Tomcat部署Solr 4.3
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表