设为首页 收藏本站
查看: 1159|回复: 0

[经验分享] Nutch + solr 这个配合不错哦

[复制链接]

尚未签到

发表于 2015-7-18 12:15:37 | 显示全部楼层 |阅读模式
  因为朋友需要,所以把这个开源组合放在一起试用了下,正在弄,先Mark下。
  用的是Nutch1.9,这个比较新,资料比较少,基本上就是用原来的英文WIKI。
  首先要注意的是,不要试着在windows下做,除非你是环境十分有必要,或者是一点也不会linux,因为在windows下,确实需要改大量的代码,并且会有不可预料的问题出现。
  然后在这两个地方要注意
  一是记得改Nutch过滤策略。
  Nutch上的conf/regax-urlfilter.xml中一定要把没用的#掉,然后加上这个正则
  +^http://([a-z0-9]*\.)*com/
  当然到你的系统要发布的时候,你可以根据你的需要改这些正则,匹配不同采集策略。
二是schema.xml要同步的。
  Nutch和solr下应该一样的,我是用Nutch的覆盖solr的
  三是几个错误要修改好,网上基本能查到。
  主要就是改下scheme.xml里的几个参数,比如把text值改为context呀,
  再有就是把没有分词包加到solr的sample的库目录呀,或是直接注释掉什么的,
  方法很多,大家放狗搜搜,自己再读读源码,应该很轻松搞定。
  最后就是在系统中集成的方法了,我用了solrnet,做的客户端,很轻松,查询只要3天就可以写出来,当然要做好web或是服务的话,应该也不麻烦。
  在上客户端的时候,我用的是xml形式的查询,已经有现成的封装,大家可以自己试试。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-87977-1-1.html 上篇帖子: lucene & solr optimize 索引后结果与平台有点关系 下篇帖子: Solr基础知识
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表