设为首页 收藏本站
查看: 940|回复: 0

[经验分享] 《AWS历次事故分析及启示》读后感

[复制链接]

尚未签到

发表于 2019-2-22 09:44:05 | 显示全部楼层 |阅读模式
#####################################################

##如有转载,请务必保留本文链接及版权信息

##欢迎广大运维同仁一起交流linux/unix网站运维技术!

##QQ:335623998

##E-mail:335623998@qq.com

##博客: http://dreamway.blog.运维网.com/

##weibohttp://weibo.com/zhaixiangpan

#####################################################

    
      今天上午weibo上看到网易汪源的《AWS历次事故分析及启示》便有了此读后感,一点个人拙见,还请大家拍砖。

   《AWS历次事故分析及启示》摘要

  


《AWS历次事故分析及启示》原文链接http://vdisk.weibo.com/s/txo-W
   AWS历史上的4次事故说明了公有云或私有云,尚不够稳定,对设备、系统、技术等各个方面的要求还是很全面苛刻的,某一个忽略或不在意的点都可能产生雪崩效应,波及整个业务。由此可见运维团队的重要性以及技术能力的全面性。   
  网站运营事故的发生是不可避免的,出现故障也正是检验网站架构、运维团队能力的时候。当出现问题进行分析、排查、解决、恢复并进行故障根源详细的分析总结、完善,避免重蹈覆辙,使网站架构更健壮、稳定。
  AWS出现的事故并不是昙花一现,也有可能在任何一个网站发生,我们更应该借鉴和规避类似事故。 网站应用的架构设计就应该将诸多方面考虑进去,以下是我的一些想法:
    1、强化运维制度规范,避免“想当然”,减少误操作,对于生产环境的较敏感的变动,例如网络的扩容,服务器的上下架、硬盘的更换等,需要对操作的必要性、步骤流程、潜在问题的预估、指定操作人员及负责人员、操作时间的选择等以文档等形式进行报备审批后才能实施。
    2、提高运维人员技能,知识的积累储备和共享,对新技术的敏感、研究储备。
    3、IDC的选型(例如:网络质量的稳定性、超带宽容量的临时增加,机房电源的冗余不间断性、容灾性(如果一个机房故障,将业务切至其他机房继续提供应用)),服务器及网络设备硬件的稳定性(进行设备加电测试稳定后再上线使用),操作系统的选择(将操作系统安装在已经测试可用的服务器型号上,进行操作系统熟悉掌握及常用应用测试后再上线使用),应用程序(版本的稳定可靠性、安装目录、文件名、配置参数的规范统一性,同样前期需要经过测试的版本才能上线使用)。
    4、运维工具的选择:安全的、统一的,甚至一些特殊配置也要标准化。
    5、操作系统权限的控制、审计。
    6、工作业务责任制,分配到人,明确岗位职责。
    7、常见故障的处理文档化、标准化,提交至运维知识库,出现相同或类似问题即可到知识库参考,提高效率。一切以确定的、可行的为依据,减少模糊的、想当然的做法,避免人为操作失误。
    8、业务上线的规范,开发完毕测试环境测试、审核完毕,然后再上线。
    9、应用架构的设计:冗余性、可靠性、高可用性。
    10、数据备份(配置文件及数据的备份机制、异地备份,备份的可用性定期进行自我检验)
    11、系统、网络、IDC设备的硬防安全(定期自我检测或请第三放进行安全评估)
    12、系统、应用的监控及监控机制的规范(完善监控内容、标准监控参数、报警发现通知流程、报警级别的划分)
    13、未雨绸缪,对网站业务运营自我进行风险预估。
    网站架构不可能一直能满足需求,也不可能一直是稳定的,他就像矛与盾的关系,随着生产发展而不断完善、优化。这也是运维团队的职责与重要性。

     以上自己的一点想法,不妥之处还请指正,都是结合工作中接触到的一点思想认知吧,并没太具体的实操性。





运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-675628-1-1.html 上篇帖子: 云计算里AWS和Azure的探究 下篇帖子: 关于AWS上磁盘扩容(二)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表