设为首页 收藏本站
查看: 3446|回复: 0

[经验分享] zookeeper监控告警

[复制链接]

尚未签到

发表于 2015-11-1 16:28:08 | 显示全部楼层 |阅读模式
一、ZooKeeper简介
ZooKeeper作为分布式系统中重要的组件,目前在业界使用越来越广泛,ZooKeeper的使用场景非常多,以下是几种典型的应用场景:
l  数据发布与订阅(配置中心)
l  负载均衡
l  命名服务(Naming Service)
l  分布式通知/协调
l  集群管理与Master选举
l  分布式锁
zk环境搭建
这里不详细说明,提供详细blog说明。
Zookeeper集群搭建:http://www.cnblogs.com/linuxbug/p/4840137.html
Zookeeper配置文件详解:http://www.cnblogs.com/linuxbug/p/4840136.html
Zookeeper常用四字命令:http://www.cnblogs.com/linuxbug/p/4840135.html
二、ZooKeeper监控
在部门内部,有不少应用已经强依赖ZooKeeper,ZooKeeper的工作状态直接影响它们的正常工作。先来看一看哪些因素对ZooKeeper正常工作有比较大的影响:

影响ZooKeeper工作的主要因素
l  用于zookeeper写事务日志的目录要有足够大小,并且强烈建议在单独的磁盘(挂载点)上,这是影响ZK性能最大因素之一。
l  连接数。
l  注册的Watcher数。
l  ZNode是否可读,可写。
l  ZK事件通知的延时是否过大。

针对监控平台的以上几点要求,部内内部选用了目前使用业界已经比较成熟的阿里开源ZooKeeper监控框架TaoKeeper。
TaoKeeper源码及搭建方法参考https://github.com/alibaba/taokeeper

TaoKeeper介绍
TaoKeeper是阿里开源ZooKeeper监控告警框架,提供以下功能:
  l  CPU/MEM/LOAD的监控
  l  ZK日志目录所在磁盘剩余空间监控
  l  单机连接数的峰值报警
  l  单机 Watcher的峰值报警
  l  节点自检:是指对集群中每个IP所在ZK节点上的PATH: /YINSHI.MONITOR.ALIVE.CHECK 定期进行三次如下流程 : 节点连接 - 数据发布 - 修改通知 - 获取数据 - 数据对比, 在指定的延时内,三次流程均成功视为该节点处于正常状态。
  
  工作原理
Taokeeper通过SSH连接到ZooKeeper部署的机器上,再在上面执行ZooKeeper的四字命令来得到统计信息,再分析保存到mysql数据库中。
监控目标机器的负载,也是通过SSH连接到目标机器,再执行top等命令,再分析得到数据。
常见四字命令:
l  echo stat|nc 127.0.0.1 2181 来查看哪个节点被选择作为follower或者leader
l  echo ruok|nc 127.0.0.1 2181 测试是否启动了该Server,若回复imok表示已经启动。
l  echo cons | nc 127.0.0.1 2181 列出所有连接到服务器的客户端的完全的连接/会话的详情。
l  echo wchs | nc 127.0.0.1 2181 列出服务器 watch 的详细信息。

  注意事项
  1 taokeeper通过ssh信道到访登录每台机器,需要打开ssh的password登陆方式,不然taokeeper运行时会出现authentication failed错误。打开方式如下:
l  对于contos机器(sshd版本为标准OpenSSL):需要把sshd配置文件中(本机为/etc/ssh/sshd_config.l)中PasswordAuthentication变量设置成yes;
l  对于suse机器(sshd版本为SSH Secure Shell):需要把sshd配置文件中(本机为/etc/ssh2/sshd2_config.l)中AllowedAuthentications变量加上password(AllowedAuthentications publickey,keyboard-interactive,password);
  2 监控的每台机器需要安装nc命令(suse中叫netcat,可以直接做个软链到nc)
  
  使用TaoKeeper,目前已建立起部门内ZooKeeper的监控视图
ZooKeeper集群实时状态
DSC0000.jpg
点击查看按钮可以查看具体信息
Watch数
DSC0001.jpg

连接数
DSC0002.jpg

集群状态趋势图
DSC0003.jpg

新增监控集群
DSC0004.jpg
三、ZooKeeper告警
TaoKeeper查看主要针对以下几个维度:
l  ZooKeeper宕机告警
l  单机连接数超过阀值告警
l  单机Watch数超过阀值告警
l  磁盘,CPU,内存超过阀值告警

或自己使用四字命令+nc写脚本去做告警也行,这里不再详述。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-133707-1-1.html 上篇帖子: 关于usr/bin/ld: cannot find 下篇帖子: SUSE11SP3--安装svn
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表