设为首页 收藏本站
查看: 897|回复: 0

[经验分享] lucene + hadoop 分布式搜索运行框架

[复制链接]

尚未签到

发表于 2016-12-9 09:35:05 | 显示全部楼层 |阅读模式
lucene + hadoop 分布式搜索运行框架 Nut 1.0a8
http://code.google.com/p/nutla/

Nut开发环境搭建(虚拟机下hadoop0.20.2+zookeeper3.3.1+hbase0.20.6开发环境的搭建)
http://www.blogjava.net/nianzai/
http://code.google.com/p/nutla/




1、概述
不管程序性能有多高,机器处理能力有多强,都会有其极限。能够快速方便的横向与纵向扩展是Nut设计最重要的原则。
Nut是一个Lucene+Hadoop分布式搜索框架,能对千G以上索引提供7*24小时搜索服务。在服务器资源足够的情况下能达到每秒处理100万次的搜索请求。
Nut开发环境:jdk1.6.0.21+lucene3.0.2+eclipse3.6.1+hadoop0.20.2+zookeeper3.3.1+hbase0.20.6+memcached+linux

2、特新
a、热插拔
b、可扩展
c、高负载
d、易使用,与现有项目无缝集成
e、支持排序
f、7*24服务
g、失败转移

3、搜索流程
Nut由Index、Search、Client、Cache和DB五部分构成。(Cache默认使用memcached,DB默认使用hbase)
Client处理用户请求和对搜索结果排序。Search对请求进行搜索,Search上只放索引,数据存储在DB中,Nut将索引和存储分离。Cache缓存的是搜索条件和结果文档id。DB存储着数据,Client根据搜索排序结果,取出当前页中的文档id从DB上读取数据。

用户发起搜索请求给由Nut Client构成的集群,由某个Nut Client根据搜索条件查询Cache服务器是否有该缓存,如果有缓存根据缓存的文档id直接从DB读取数据,如果没有缓存将随机选择一组搜索服务器组(Search Group i),将查询条件同时发给该组搜索服务器组里的n台搜索服务器,搜索服务器将搜索结果返回给Nut Client由其排序,取出当前页文档id,将搜索条件和当前文档id缓存,同时从DB读取数据。




4、索引流程
Hadoop Mapper/Reducer 建立索引。再将索引从HDFS分发到各个索引服务器。
对索引的更新分为两种:删除和添加(更新分解为删除和添加)。
a、删除
在HDFS上删除索引,将生成的*.del文件分发到所有的索引服务器上去或者对HDFS索引目录删除索引再分发到对应的索引服务器上去。
b、添加
新添加的数据用另一台服务器来生成。
删除和添加步骤可按不同定时策略来实现。

5、Zookeeper服务器状态管理策略

在架构设计上通过使用多组搜索服务器可以支持每秒处理100万个搜索请求。
每组搜索服务器能处理的搜索请求数在1万—1万5千之间。如果使用100组搜索服务器,理论上每秒可处理100万个搜索请求。


假如每组搜索服务器有100份索引放在100台正在运行中搜索服务器(run)上,那么将索引按照如下的方式放在备用中搜索服务器(bak)上:index 1,index 2,index 3,index 4,index 5,index 6,index 7,index 8,index 9,index 10放在B 1 上,index 6,index 7,index 8,index 9,index 10,index 11,index 12,index 13,index 14,index 15放在B 2上。。。。。。index 96,index 97,index 98,index 99,index 100,index 5,index 4,index 3,index 2,index 1放在最后一台备用搜索服务器上。那么每份索引会存在3台机器中(1份正在运行中,2份备份中)。
尽管这样设计每份索引会存在3台机器中,仍然不是绝对安全的。假如运行中的index 1,index 2,index 3同时宕机的话,那么就会有一份索引搜索服务无法正确启用。这样设计,作者认为是在安全性和机器资源两者之间一个比较适合的方案。

备用中的搜索服务器会定时检查运行中搜索服务器的状态。一旦发现与自己索引对应的服务器宕机就会向lock申请分布式锁,得到分布式锁的服务器就将自己加入到运行中搜索服务器组,同时从备用搜索服务器组中删除自己,并停止运行中搜索服务器检查服务。

为能够更快速的得到搜索结果,设计上将搜索服务器分优先等级。通常是将最新的数据放在一台或几台内存搜索服务器上。通常情况下前几页数据能在这几台搜索服务器里搜索到。如果在这几台搜索服务器上没有数据时再向其他旧数据搜索服务器上搜索。
优先搜索等级的逻辑是这样的:9最大为搜索全部服务器并且9不能作为level标识。当搜索等级level为1,搜索优先级为1的服务器,当level为2时搜索优先级为1和2的服务器,依此类推。


posted on 2010-10-27 10:38 nianzai 阅读(1783) 评论(10)  编辑  收藏 所属分类: Nut(lucene + hadoop 分布式运行框架)
DSC0000.jpg
评论
# re: lucene + hadoop 分布式搜索运行框架 Nut 1.0a8 2010-10-28 09:15 qiu768
博主这套框架是否在实际项目中用过?  回复  更多评论   

# re: lucene + hadoop 分布式搜索运行框架 Nut 1.0a8 2010-10-28 09:42 nianzai
Nut目前还是alpha版,因需要有大量的机器所以目前还没有这样的条件来实际使用该框架  回复  更多评论   

# re: lucene + hadoop 分布式搜索运行框架 Nut 1.0a8[未登录] 2010-10-29 10:04 JL
问两个问题:
1. 同步到一组中的每个nut搜索服务器上的索引是相同的吗,就是说是一份大索引?还是说整个系统的索引是这组服务器上索引的并集?
2. 如果直接用搜索服务器去搜索放在hdfs上的索引时,如何解决hdfs上索引更新时的同步问题?  回复  更多评论   

# re: lucene + hadoop 分布式搜索运行框架 Nut 1.0a8 2010-10-29 10:29 nianzai
同一组服务器里服务器上的索引是不相同的,同一组服务器共同构成一个完整的大索引

搜索的时候并不搜索hdfs上的索引,那样性能非常差,是要分发到搜索服务器上的进行本地搜索  回复  更多评论   

# re: lucene + hadoop 分布式搜索运行框架 Nut 1.0a8[未登录] 2010-10-29 12:24 YY
那这样岂不违背了hadoop的设计理念?@nianzai
  回复  更多评论   

# re: lucene + hadoop 分布式搜索运行框架 Nut 1.0a8 2010-10-29 13:23 nianzai
违背了hadoop的设计理念?

不知道为什么这么说?  回复  更多评论   

# re: lucene + hadoop 分布式搜索运行框架 Nut 1.0a8[未登录] 2010-11-25 23:32 keren
请问在搜索的时候,是根据什么来把从M/R里面的结果组装起来的?因为搜索结果是有排序和相似度的。谢谢!  回复  更多评论   

# re: lucene + hadoop 分布式搜索运行框架 Nut 1.0a8[未登录] 2010-11-26 13:06 nianzai
nut并不用M/R来排序,用M/R来排序的话并发是上不来的

nut是通过各个搜索服务器来实现本地搜索再在nut client端进行合并排序  回复  更多评论   

# re: lucene + hadoop 分布式搜索运行框架 Nut 1.0a8 2010-12-03 08:58 zhuweimin
版主的设计的系统和katta有点象,不过katta没有使用Hbase来保存数据和是索引放在一起  回复  更多评论   

# re: lucene + hadoop 分布式搜索运行框架 Nut 1.0a8 2010-12-03 14:53 nianzai
katta发布的时候应该是还没有hbase的
nut 和 katta 是有点像,但是 是两个完全不一样的东西  回复  更多评论   

新用户注册  刷新评论列表

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-311784-1-1.html 上篇帖子: 开源框架Hadoop实现分布式计算 下篇帖子: 修改Hadoop集群的备份数
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表