数据在千万级别上进行全文检索有哪些技术？强大的大数据全文索引解决方案

ck1987 · 发表于 2017-12-20 09:49:18

　　数据在千万级别上进行全文检索有哪些技术？强大的大数据全文索引解决方案-ClouderaSearch
　　1.lucene (solr, elasticsearch 都是基于它）
　　2.sphinx
　　3.elasticsearch 简单易用。天生分布式。
　　4.HBasene（注意HBase后面加了ne就是 HBase+lucene）。
　　solr的请求基本都封装为了http，如果是http服务效率不好呢绕过它，直接透过lucene的API进行查询。
　　但是solr云的方式部署进行了负载均衡，效率不会太差。
　　应用查询条件最多20个左右，10个solr节点，每个节点的数据1亿左右。
　　但是索引不是写在本地磁盘，是写在hdfs上的。
　　================================
　　强大的大数据全文索引解决方案-ClouderaSearch
　　ClouderaSearch带来了全文索引，实时查询和针对CDH和你的企业级数据中心的扩展、灵活性的索引服务。
　　由Apache Hadoop和Apache Solr提供，是企业级的开源搜索。
　　Cloudera Search带来了扩展性和可靠性的新一代集成，多个工作任务的搜索。
　　通过它与CDH独特的整合，Cloudera Search获得了同样的容错性，扩展性，可见性，安全性，以及灵活性的提供其他企业级数据中心的工作。
　　关键特征:
　　1.全文索引和小面（faceted，与solr一样）导航，基于Hadoop和HBase中的内容
　　2.可以基于MapReduce实现批量索引。
　　3.通过GO-LIVE对动态索（Dynamic index）引进行更新
　　4.针对实时查询，集成了Flume和Lily HBase indexer。
　　5.无模式（Schema-less）和动态字段的支持，使schema管理更简单
　　6.针对hadoop优化的字段格式做了“开箱即可用”（Out-of-the-box）字段的提取
　　7.多文件（Multi-file）格式的支持和集成能力
　　8.通过HDFS，实现扩展性和容错性索引存储和访问
　　9.与Apache Sentry的集成，实现了基于角色，细粒度的权限控制
　　10.通过使用Morphlines重用了数据配置通过工作量
　　11.与其他hadoop服务共用了基础设施，资源和数据
　　12.通过使用Index Aliasing 和 Oozie workflows，使用数据迁移和服务更简单
　　13.在Hue中有简单，可配置的，基于面（faceted）和全文搜索的UI可以使用
　　14.所有标准的搜索特征在Solr和SolrCloud中有的
　　15.跨平台的监控，可见性，资源控制，通过ClouderaManager实现
　　Cloudera Search是一个整合了Lily，solr（solr cloud），HBase，Hadoop，Flume等，以及使用ClouderaManager来进行管理的全文索引解决方案。
　　任何人使用这个框架都可以轻松搭建一个与google和百度类似的搜索服务。由此可以看出这个框架的强大之处。
　　参考官网： http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/search.html

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

Red Hat RHCE 8 (EX294) Cert Guide

c++ size_t 和 int 的区别

HERE 使用 AWS EF 和 JFrog Artifactory 打

C++ 指针大全：从基础到进阶，一篇快速上手

wirelessnetview好用的无线分析工具

亿图图示专家(EDraw Max) V7.9 中文破解版

[经验分享] 数据在千万级别上进行全文检索有哪些技术？强大的大数据全文索引解决方案

浏览过的版块

扫码加入运维网微信交流群