设为首页 收藏本站
查看: 1001|回复: 0

[经验分享] 数据在千万级别上进行全文检索有哪些技术?强大的大数据全文索引解决方案

[复制链接]

尚未签到

发表于 2017-12-20 09:49:18 | 显示全部楼层 |阅读模式
  数据在千万级别上进行全文检索有哪些技术?强大的大数据全文索引解决方案-ClouderaSearch
  1.lucene  (solr, elasticsearch 都是基于它)
  2.sphinx
  3.elasticsearch 简单易用。天生分布式。
  4.HBasene(注意HBase后面加了ne就是 HBase+lucene)。
  solr的请求基本都封装为了http,如果是http服务效率不好呢绕过它,直接透过lucene的API进行查询。
  但是solr云的方式部署进行了负载均衡,效率不会太差。
  应用查询条件最多20个左右,10个solr节点,每个节点的数据1亿左右。
  但是索引不是写在本地磁盘,是写在hdfs上的。
  ================================
  强大的大数据全文索引解决方案-ClouderaSearch
  ClouderaSearch带来了全文索引,实时查询和针对CDH和你的企业级数据中心的扩展、灵活性的索引服务。
  由Apache Hadoop和Apache Solr提供,是企业级的开源搜索。
  Cloudera Search带来了扩展性和可靠性的新一代集成,多个工作任务的搜索。
  通过它与CDH独特的整合,Cloudera Search获得了同样的容错性,扩展性,可见性,安全性,以及灵活性的提供其他企业级数据中心的工作。
  关键特征:
  1.全文索引和小面(faceted,与solr一样)导航,基于Hadoop和HBase中的内容
  2.可以基于MapReduce实现批量索引。
  3.通过GO-LIVE对动态索(Dynamic index)引进行更新
  4.针对实时查询,集成了Flume和Lily HBase indexer。
  5.无模式(Schema-less)和动态字段的支持,使schema管理更简单
  6.针对hadoop优化的字段格式做了“开箱即可用”(Out-of-the-box)字段的提取
  7.多文件(Multi-file)格式的支持和集成能力
  8.通过HDFS,实现扩展性和容错性索引存储和访问
  9.与Apache Sentry的集成,实现了基于角色,细粒度的权限控制
  10.通过使用Morphlines重用了数据配置通过工作量
  11.与其他hadoop服务共用了基础设施,资源和数据
  12.通过使用Index Aliasing 和 Oozie workflows,使用数据迁移和服务更简单
  13.在Hue中有简单,可配置的,基于面(faceted)和全文搜索的UI可以使用
  14.所有标准的搜索特征在Solr和SolrCloud中有的
  15.跨平台的监控,可见性,资源控制,通过ClouderaManager实现
  Cloudera Search是一个整合了Lily,solr(solr cloud),HBase,Hadoop,Flume等,以及使用ClouderaManager来进行管理的全文索引解决方案。
  任何人使用这个框架都可以轻松搭建一个与google和百度类似的搜索服务。由此可以看出这个框架的强大之处。
  参考官网: http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/search.html

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-425972-1-1.html 上篇帖子: solr6.6 导入 文本(txt/json/xml/csv)文件 下篇帖子: schema.xml的配置
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表