设为首页 收藏本站
查看: 871|回复: 0

[经验分享] Nutch-1.3中没了自带的搜索war文件,Nutch爬取与Solr搜索结合

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2015-11-12 10:05:48 | 显示全部楼层 |阅读模式
  不知道为什么在Nutch-1.3中没了Nutch自带的搜索war文件,而且在Nutch-1.3中,抓取文件后,生成的目录只有crawldb,linkdb,segments,而没有了indexs和index目录
  查了一下官网Wiki,上面是把Nutch的索引映射到solr,用solr来提供搜索功能,详见官网Wiki说明:http://wiki.apache.org/nutch/RunningNutchAndSolr
  我百思不得其解,我觉得Nutch-1.2中自带的搜索功能挺好用的啊,搜索界面和百度、Google差不多,根据关键字查出来后,结果展示也和百度、Google类似,而且结果中关键字还加了高亮显示,也有分页,而solr的搜索界面并不友好,返回结果也不友好,是以XML形式返回的
  对比这两个,搜索同一关键字,发现Nutch搜索的展示结果有重复,而solr没有重复,还有solr可以在conf/schema.xml配置字段属性,nutch好像改了这个配置文件,也没起效果,比如,我想让索引中存储content和termvector,可是搜索结果,并没有存储
  用nutch solrindex命令,将Nutch索引映射到Solr后,映射过去的是content还是parse_text呢?看了一下源码org.apache.nutch.indexer.solr.SolrIndexer,发现映射过去的是parse_text
  而nutch中的content是带html标签的文本,所以nutch搜索的结果是以网页形式显示的,所以对应的内容是content,而solr搜索的content是映射过去的parse_text
  如果希望索引能被mahout lucene.vector 转成向量,则需要存储termVector属性,不管是lucene还是solr中加了TermVector后,索引目录中,都会多出.tvd,.tvf,.tvx三个文件,如果命令参数中有--norm 2,意思就是欧几里德向量空间,后面在计算距离时就按欧几里德空间度量距离,当然这个参数可以设置其它的,那就是其它的向量空间模型,详见官网说明
  如果直接将索引转成mahout向量的话,它的key就变成的整型数字,将索引转为向量后的文件key-value是(LongWritable,VectorWritalbe),即没有对应的原始url,就不知道结果如何对应的原始文件
  如果是采用先mahout seqdirectory,然后再mahout seq2saprse的话,在向量文件中用seqdumper读取时可以看到key是文件名,但此时value对应的不是数字啊,在用vectordump读取时,参数加-p就可以显示出key及value数组,不过这样在由最后结果的value从输入向量中反查url,是不是很麻烦呢?最好的方法是将key也输出到最终结果中去
  估计solr搜索功能比Nutch的搜索强大吧,所以在Nutch-1.3中弃用了。上面只是一点小对比,至于具体的原因,我还没搞清楚,等有时间,再好好对比一下
  
  2011-10-27 补充说明:
  为什么会出现nutch+solr的组合:http://apps.hi.baidu.com/share/detail/33659525 ,这篇文章有介绍,在Hadoop的contrib中的index是使用MapReduce建立Lucene索引的,不是用来搜索用的。将索引放在HDFS上面是为了利用Hadoop平台的计算性能对索引进行合并等一些操作。在hadoop平台上进行这些操作比单机处理强很多。参考:http://lucene.472066.n3.nabble.com/Lucene-index-file-on-HDFS-td932203.html
  nutch不适合作分布式搜索,因为在hdfs上面的索引可能不在同一节点,搜索可能需要请求n个节点才能完成。这样,对在hdfs上面完成搜索较本地索引文件在本地的搜索性能会略逊一些。参考资料:http://blog.iyunv.com/telnetor/article/details/6143365
  solr的优点:http://baike.baidu.com/view/943234.htm
1.solr的缓存比nutch内置的前台的效率高,solr是企业级全文搜索,丰富的查询语言,提功更多搜索功能,例如:拼写检查等
  2.solr可配置、可扩展并对查询性能进行了优化,高效、灵活的缓存功能,垂直搜索功能,提供基于Web的管理界面等

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-138216-1-1.html 上篇帖子: Solr with Apache Tomcat 下篇帖子: Solr的自动完成/自动补充实现介绍(1): autoComplete
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表