分布式搜索方案选型之四：Solr+Katta

2440 · 发表于 2015-11-12 10:02:58

　　一个叫katta的开源项目进入我的视线，它是一个分布式索引建立和管理工具，底层是hadoop的hdfs分布式文件系统，hadoop是当今云计算的热门使用项目，由apatch开源是一个海量数据的处理和存储方案，它的主要核心就是它的hdfs分布式文件存储系统和mapreduce算法，它们分别是google论文中的gfs和mapreduce的开源实现。目前大公司的云计算平台基本上都是基于它来搭建的。因为我之前在学校做的一个搜索引擎项目也是基于它的，所以我对它还是比较熟悉的，通过之前写过的自动化部署脚本，我很快就搭起了一个由4台机器组成的hadoop集群，每台机160G的硬盘，乘于4的话就是640G了，而且这640G还是一个整体来的哦，以后如果空间不够了，或者运算能力不够了的话就直接加机器就行了，使用hadoop可以非常容易的提高整个系统的运算能力，google的核心技术之一就它了。而katta这个项目只是个lucene的索引管理工具，通过hadoop的mapreduce算法来批量建立索引，它的很大部分特性都是参考了nutch（一个基于hadoop的开源爬虫项目），它提供的搜索功能很弱，只有最基本的查询方法，一些高级的如：分组，统计，范围查询都没有的，于是试试看看能否把它和solr进行集成，因为solr提供了很强大的搜索功能，网上搜索发现有人已经研究实现它了，就是这个帖子https://issues.apache.org/jira/browse/SOLR-1395，不过配置过程极其复杂，而且还要该很多的源码，我看那帖子是从10年就开始了的，他们的讨论已经持续一年多了，貌似还没有什么结果，可见难度还是比较大的。就没有深入去了解。
　　
　　katta官网：http://katta.sourceforge.net/
版权声明：本文为博主原创文章，未经博主允许不得转载。

账号		自动登录	找回密码
密码			立即注册

wirelessnetview好用的无线分析工具

Red Hat RHCE 8 (EX294) Cert Guide

Shell从入门到精通（阿良）

亿图图示专家(EDraw Max) V7.9 中文破解版

zabbix3.4.1安装部署+微信推送信息+大屏显

Red Hat OpenShift I: Containers & Kubern

2025 年，C++ 还能“硬核”多久？

[经验分享] 分布式搜索方案选型之四：Solr+Katta

扫码加入运维网微信交流群