flume+kafka+Druid 流数据查询聚合工具

yp1234 · 发表于 2015-11-27 21:10:46

　　Druid是个用于海量查询、聚合的工具，项目比较新，资料方面还比较少。这里是一位博主fish_cool总结的资料，包括Druid的简介，适用的场景，用法等，很大部分也是从Druid官网上总结的，写得很不错。这篇文章要介绍的是实验室自己的系统设计思路。
整个系统的架构是 flume -> kafka -> druid，flume 与kafka的整合之前在搭建flume-> kafka -> storm的时候有详细文档，通过 flume实现为kafka 的producer api，将程序打包成 jar放置在flume/lib 下，配置agent文件即可。
一、部署
部署druid需要先部署它的一些依赖，最主要的是两个： zookeeper和mysql ，zookeeper是 druid集群非常重要的一环，用于管理各个不同节点之间的工作和协调系统的运行。 mysql则是用来存储rules， segment等等的元数据。zookeeper1] 是druid官网上介绍部署 druid集群的文档，主要是zookeeper的部署，还有 druid几种重要节点配置文件的修改。mysql安装完mysql之后进入的 ${DRUID_HOME}/config/_common修改配置文件，图1所示参数是元数据存储修改为 mysql存储的示例。

图 1 common.runtime.properties- 类型type修改为 mysql- 数据库的连接地址，注明主机名，端口号 (mysql的默认为3306 ）和数据库名（本例中为 druid，需要在mysql 中自己创建）- 连接到数据库的用户名和密码由于coodinator通过 zookeeper周期性的向mysql 查询segments的信息并决定卸载和载入 segments，因此zookeeper 和mysql都是必须的。kafkakafka 消息缓存作为一个 firehorse（druid 的数据源，输入源）， druid集成的很好。官网上给出的建议是如果在集群部署的话需要自己定制 kafka的comsumer api作为druid的输入源，否则在一致性方面可能会有问题，但是单点 druid和测试用直接用druid集成的 kafka配置就可以了，[2]给出了详细的运行步骤。在 druid要运行realtime 和historical必须要让它们知道你的数据源，数据的格式等信息，这些信息由 .spec为后缀的文件来指定，也是我们定制自己的数据源的重要文件，详细的各个字段在文档 [3]中dataSchema 都有提到。以 druid自带的examples/indexing/wikipedia.spec 文件来解释几个重要的字段。

图 2 wikipedia.spec(上)　　第4行指出的 dataSource指定数据源的名字，可以自定义，后面在做查询的时候你的 json文件需要提供一个dataSource数据源的字段，就是你所写的这个值。
　　图3是另外几个重要参数，包括将 zookeeper.connect修改为你自己的zookeeper的主机号和端口号， feed等。feed 这个字段非常重要，它就是指定去 kafka中哪个topic 中拉取数据的 topic名，必须跟flume 输出的topic， kafka作为缓存的topic 是同一个。另外一些参数是性能调优方面的，即箭头所指的持久化周期大小和 realtime服务的窗口大小，还有图 2，图3 没列举出来的可调优的字段，其他配置 dimensionsSpec和metricsSpec 等属性的都可以在文档 [3]中找到。

图 3 wikipedia.spec(下)curl
部署druid完成之后，需要通过curl发送请求来测试或者查询结果。查询方式有两种，原理都一样，只是方式不一样，如图 4所示。

图 4 curl请求测试druid-X 后面指定一种请求方式，比如图 4中的POST
-H 指定请求的Header 头信息
-d 指定json 格式的内容或者一个 json文件( 用@引导 )
二、使用步骤
1) flume -> kafka: kafkaSink程序导出jar包拷贝至flume/lib下；修改agent配置文件；创建topic
2) kafka -> druid: 修改${DRUID_HOME}/examples/indexing/wikipedia.spec文件，feed字段修改位kafka topic名，另外还有一些zookeeper地址之类的具体信息
3) 启动zookeeper服务
4) 启动kafka server服务
5) 启动flume agent服务
6) 启动druid realtime（配置文件要指向firehorse为kafka的文件）
7) 用flume avro-client发送数据
8) 用curl命令发送查询请求
reference
[1] http://druid.io/docs/latest/tutorials/tutorial-the-druid-cluster.html
[2] http://druid.io/docs/latest/tutorials/tutorial-a-first-look-at-druid.html
[3] http://druid.io/docs/latest/ingestion/index.html

账号		自动登录	找回密码
密码			立即注册

VMware vcenter+vSphere 6.5 U2共享

zabbix3.4.1安装部署+微信推送信息+大屏显

winhex数据恢复教程（非常巨大，内容丰富）

【跟谁学】韩宇极简英语课-技术人员不得不

用Zabbix通过JMX方式监控weblogic

Symantec Backup Exec 2015 2016/2012 BE20

NetScaler VPX部署之：NetScaler Gateway调

[经验分享] flume+kafka+Druid 流数据查询聚合工具

扫码加入运维网微信交流群