设为首页 收藏本站
查看: 1043|回复: 0

[经验分享] Summary of Windows Azure Service Disruption on Feb 29th, 2012 (leap year bug)

[复制链接]

尚未签到

发表于 2015-5-3 07:21:45 | 显示全部楼层 |阅读模式
  http://blogs.msdn.com/b/windowsazure/archive/2012/03/09/summary-of-windows-azure-service-disruption-on-feb-29th-2012.aspx
  1. 4:00PM PST, February 28:leap year问题导致认证失败(直接year + 1得到下一年的日期是错的)
  2. 5:15PM PST:经过每次25分钟的三次尝试失败之后,报警通知人工处理
  3. 6:38PM PST:工程师定位问题所在
  4. 6:55PM PST:停止用户控制台,防止用户错误操作后台集群导致更严重问题
  5. 10:00PM PST:制定操作计划
  6. 11:20PM PST:fix代码开发完毕
  7. 1:50AM PST, February 29:fix代码测试完毕(同时在某个生产集群上测试)
  8. 2:11AM PST:完成了一个生产集群的升级
  9. 5:23AM PST:持续fix各个集群,此时,大部分集群的用户控制台恢复服务
  10. 2:47 AM PST on the 29:最后剩下7个集群还有问题,这些集群升级的时候的碰到兼容问题,导致网络无法连通

  11. 3:40 AM PST:重新测试方案
  12. 5:40 AM PST:开始fix 剩余的7个集群
  13. 8:00 AM PST:集群状态正常,但是很多机器仍然处于未连通状态
  14. 2:15 AM PST, March 1:所有服务恢复
  
  可以看到:
  1. 最初是leap year问题导致bug,这个真的是比较低级的,而且微软这么多年了,应该有很多date的lib,为什么还会需要自己写代码处理日期?日期本来就不好处理。
  2. 出了问题之后也只影响了一台机器,但是为了防止更多的机器发生问题,停止了用户控制台,然后逐个集群慢慢升级
  3. 估计全球集群过程比较慢,高层不满意了,于是开始大规模升级,这下出了兼容性问题,恢复时间成倍延长,这说明碰到越严重的问题越要冷静,否则问题很可能升级为不可控制
  4. 出兼容性问题也是因为其测试未在集群进行,而是在单机进行的,这让我非常惊讶,作为对流程推崇备至的微软,应该知道生产集群的升级要做回归,而且作为分布式系统的开发同学,对单机和集群的理解应该也很深,所以这里只在单机测试应该是轻敌了
  5. 整个过程持续了30几个小时,其中大部分时间都是因为中间不兼容错误操作导致的,工程师身心疲惫,后续出问题的可能性更大。
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-62948-1-1.html 上篇帖子: [Windows Azure] Walkthrough to Configure System Center Management Pack for Windo 下篇帖子: 利用SCVMM 2012 R2来管理Azure虚拟机
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表