设为首页 收藏本站
查看: 1298|回复: 0

[经验分享] HBase 异步查询导致的死锁和zookeeper通信中断问题追踪与总结[非技术]

[复制链接]

尚未签到

发表于 2015-9-7 09:06:02 | 显示全部楼层 |阅读模式
  机房T和机房Y共十台前端机,Y机房请求量是T的两倍,主要用于数据查询,开始问题是Y机房tomcat 相继僵死
  1) tomcat僵死处理步骤
  a 检查代码,发现read through后,没有把DB数据写到缓存,增加回写代码;但单台机器每秒请求也就几十条,HBase压力很小,最终发现无效。
  b 检查代码,认为跟运行几个月的动态代码在HBase使用上完全一致,所以认为业务代码层没有问题;打印堆栈信息,认为是HBase client端发现资源等待死锁的问题
  c 下载0.94.2 patch,分析认为其解决了死锁问题,更新jar包部署。
  
  第二周发现tomcat 日志疯狂报Interrupted错误,进程没有僵死,但有大量查询超时,达100秒,firelog每3分钟单台5000+慢查询
  2) 超时处理步骤
  a 认为0.94.2没有能解决问题,只是避免了死锁,但会导致Interrupted异常;使用liwei打的0.94.2的patch包上线,发现启动失败,未果(jar包中缺少版本信息,无法启动)
  b 比较两个机房差异,认为Y机房网络有问题,ping HBase资源测试没有发现问题,晚上停掉T机房3台服务器,负载全在剩余两台上,达到请求量的平衡;当天晚即发现T机房也出现异常及大量超时;网络问题排除
  c 第二天由于产品压力,召集开发和DBA封闭解决问题。启动tcpcopy环境做测试,尽快重现问题。计划了四个方案
  1. 0.94.0 打patch上线
  2. tcpcopy测试0.94.2 Interrupt问题
  3.线程池去掉timeout,即不使用异步;使用后台线程2分钟检查一次HBase client的zookeeper watcher,看能否得到数据,出现问题则重新设置zookeeper;设置retry number为3次,避免重试10次,每次时间加倍导致超长查询
  4.升级zookeeper jar版本
  尝试到第三个版本终于正常,10点上线,十一点无状况,部门人员观察到2点,没有问题,第二天的数据统计99.92%请求200ms以下。通过规避异步timeout任务,不和HBase的默认异步调用发生冲突,从而解决了问题,需要从根本上做研究,彻底了解清楚原理。
  总结一下,在四个方面处理有问题,需要改进
  1. 网络问题  没有及早做不同机房的流量压力测试,tcpcopy测试
  2. 代码逻辑问题;因为动态运行了几个月没问题,新代码跟旧代码读取部分没有差异,因此错误排除了自身问题,将问题归结于HBase client 代码。
  3. 问题评估:没有评估出问题严重性,超时比率,导致最终服务恶化。
  4. 人力投入问题:应早投入人力分析处理,而不是出现完全无法支撑,高层都投诉的情况下才召集处理。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-110397-1-1.html 上篇帖子: Zookeeper安装和配置 下篇帖子: 分布式服务框架 Zookeeper
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表