《AWS历次事故分析及启示》读后感

kernelsky 发表于 2019-2-22 09:44:05

#####################################################
##如有转载，请务必保留本文链接及版权信息
##欢迎广大运维同仁一起交流linux/unix网站运维技术!
##QQ:335623998
##E-mail:335623998@qq.com
##博客： http://dreamway.blog.运维网.com/
##weibo：http://weibo.com/zhaixiangpan
#####################################################
　　
　　今天上午weibo上看到网易汪源的《AWS历次事故分析及启示》便有了此读后感，一点个人拙见，还请大家拍砖。

《AWS历次事故分析及启示》摘要
https://s1.运维网.com/attachment/201303/154318511.jpg
https://s1.运维网.com/attachment/201303/155010562.jpg

《AWS历次事故分析及启示》原文链接http://vdisk.weibo.com/s/txo-W
AWS历史上的4次事故说明了公有云或私有云，尚不够稳定，对设备、系统、技术等各个方面的要求还是很全面苛刻的，某一个忽略或不在意的点都可能产生雪崩效应，波及整个业务。由此可见运维团队的重要性以及技术能力的全面性。
网站运营事故的发生是不可避免的，出现故障也正是检验网站架构、运维团队能力的时候。当出现问题进行分析、排查、解决、恢复并进行故障根源详细的分析总结、完善，避免重蹈覆辙，使网站架构更健壮、稳定。
AWS出现的事故并不是昙花一现，也有可能在任何一个网站发生，我们更应该借鉴和规避类似事故。网站应用的架构设计就应该将诸多方面考虑进去，以下是我的一些想法：
1、强化运维制度规范，避免“想当然”，减少误操作，对于生产环境的较敏感的变动，例如网络的扩容，服务器的上下架、硬盘的更换等，需要对操作的必要性、步骤流程、潜在问题的预估、指定操作人员及负责人员、操作时间的选择等以文档等形式进行报备审批后才能实施。
2、提高运维人员技能，知识的积累储备和共享，对新技术的敏感、研究储备。
3、IDC的选型（例如：网络质量的稳定性、超带宽容量的临时增加，机房电源的冗余不间断性、容灾性（如果一个机房故障，将业务切至其他机房继续提供应用）），服务器及网络设备硬件的稳定性（进行设备加电测试稳定后再上线使用），操作系统的选择（将操作系统安装在已经测试可用的服务器型号上，进行操作系统熟悉掌握及常用应用测试后再上线使用），应用程序（版本的稳定可靠性、安装目录、文件名、配置参数的规范统一性，同样前期需要经过测试的版本才能上线使用）。
4、运维工具的选择：安全的、统一的，甚至一些特殊配置也要标准化。
5、操作系统权限的控制、审计。
6、工作业务责任制，分配到人，明确岗位职责。
7、常见故障的处理文档化、标准化，提交至运维知识库，出现相同或类似问题即可到知识库参考，提高效率。一切以确定的、可行的为依据，减少模糊的、想当然的做法，避免人为操作失误。
8、业务上线的规范，开发完毕测试环境测试、审核完毕，然后再上线。
9、应用架构的设计：冗余性、可靠性、高可用性。
10、数据备份（配置文件及数据的备份机制、异地备份，备份的可用性定期进行自我检验）
11、系统、网络、IDC设备的硬防安全（定期自我检测或请第三放进行安全评估）
12、系统、应用的监控及监控机制的规范（完善监控内容、标准监控参数、报警发现通知流程、报警级别的划分）
13、未雨绸缪，对网站业务运营自我进行风险预估。
网站架构不可能一直能满足需求，也不可能一直是稳定的，他就像矛与盾的关系，随着生产发展而不断完善、优化。这也是运维团队的职责与重要性。

以上自己的一点想法，不妥之处还请指正，都是结合工作中接触到的一点思想认知吧，并没太具体的实操性。

页: [1]

运维网's Archiver

《AWS历次事故分析及启示》读后感