设为首页 收藏本站
查看: 1533|回复: 1

[经验分享] 读SRE Google运维解密有感(一)

[复制链接]

尚未签到

发表于 2018-1-6 17:43:01 | 显示全部楼层 |阅读模式
前言
  这几天打算利用碎片时间读了一下"SRE Google运维解密"这本书,目前读了前几章,感觉收获颇多,结合自己的工作经历和书中的要点,写一些感悟和思考
SRE
  有关SRE我就不多介绍了,中文名字叫站点可靠性工程师,它的由来是google想通过软件工程师来解决复杂运维问题。 它里面有很多有意思的点,比如:

  • 运维工作只能占比工作时间50%
  • 另外50%要开发工具解决问题
  • SRE和开发工程师会轮岗
  这些相关概念网上很多都介绍了,我就不赘述了,我说下一些我感兴趣的点
谷歌神话
  谷歌一直在技术领域处于世界领先位置,从bigtable的三篇论文,开源的k8s,分布式关系数据库,谷歌的技术在IT领域可以说是标杆。
  有个传说是谷歌内部使用的系统一般2-3年以后才会出相关论文或者开源版本实现,出来了以后其它企业开始实践还需要2-3年,等到你把这些实现了,谷歌又不知道实现了什么黑科技。IT界如果是江湖的话,谷歌就像是少林派,有一种天下武功出少林的气派。
  所以SRE这本书自带光环,很多人都觉得这是运维圣经,觉得这是拯救运维领域的不二法宝。
  或许你也在读这本书,你也想在内部尝试SRE的一些方法和思想。
  那么首先我劝你先冷静一下,它并不是一个万能的解药,要先考虑下你的公司现状,问题,结合实际国情,找到切实可行的方法。
  我为什么这么说呢?请往下看
谷歌的肌肉
  首先本书一开始简单说了下SRE的思想和方法论,然后介绍了谷歌的基础设施,就好像一个人一样,谷歌的基础设施就是这个人的肌肉,有了强劲的肌肉才能跑得快,跳得高。
网络设施
  谷歌基于自研的交换机Clos,使用SDN技术,确保每个数据中心可提供海量带宽,并且可以动态带宽管理优化网络连接。
调度系统
  使用Borg负责在集群层面管理任务编排工作
存储
  在物理机设施(磁盘)上构建了一套简单可用,可靠的集群存储服务。

  • Colossus GFS文件系统的改进白本
  • Bigtable 松散存储的,分布式,有顺序,持久化的NoSQL数据库
  • Spanner 分布式的关系型数据库
分布式锁
  Chubby 提供一个可以处理异地,跨机房级别锁请求的集群锁服务
监控和报警
  Borgmon 从监控对象抓取监控指标,这些指标可以用来触发报警,也可以存储起来供观看。(开源实现是Prometheus)
RPC
  所有谷歌服务之间使用RPC通信,称为Stubby(开源实现gRPC),传输格式是Protobuf。
GSLB和BNS

  • 利用地理位置进行负载均衡DNS请求
  • 用户服务层面负载均衡
  • RPC层面负载均衡
  通过各个层面的负载均衡将用户流量导向健康的服务上面。
  这些完善的基础设施,给SRE中的方法和思想做了强有力的支撑。
故障不是洪水猛兽
  SRE中定义了一个概念叫SLO(服务质量目标),通过SLO合理评判一个服务要达成的服务质量。
  首先我先说下”故障“这个词,这个词对运维人员来说,是非常不想听到和遇到的。运维人员有一个重要任务是确保服务的稳定,换句话说就是没有故障。
  所以我们或多或少谈到“故障”就会色变,遇到故障马上第一时间解决,为了避免下次还出现,我们可能还会开“事故总结会”,优化流程和工具。
  其实我们很多时候对于“故障”的理解是简单粗暴的,从一线员工到老板都认为“故障不能有”,“故障必须消除”,我们耗费很大精力“消除了一切故障”,系统平稳运行了,自己也会萌生成就感,感觉干的还不赖。可是并没有进一步去思考一下,故障存在的意义。
  我们常见的所谓“99.9%”,“99.99%”的服务可用性,但是并没有使用科学方法来分析和规划业务到底应该3个9还是4个9。
  SRE中说到一句话“100%稳定的系统是不存在的”,它把这个做为一个前提,那也意味着系统是肯定要出故障的。
  SLO就是用来解决这个事情的,首先服务的故障不可避免,每个服务的级别不同,不可能所有服务都是99.999999,要针对业务的不通特性制定不同的SLO。
  比如: 谷歌的企业服务,针对企业用户是有签署服务中断赔偿协议的,那么稳定性要求很高,所以它的SLO级别必须很高。 谷歌的youtube(当时),针对终端用户且版本迭代很快,业务在不断变化和创新,SLO级别可以放低。
  SLO的制定通常是产品经理,开发团队,SRE一起协商完成,大家根据业务的规模,产品特性,产品处于的阶段制定。
  SLO的制定,我觉得就是科学的面对“故障”这个问题,故障不可避免,不应该以消灭故障为目的,合理的接受它,确保它在SLO标准的范围内,高于这个标准会浪费人力和成本,低于这个标准就需要进行优化。
  SLO的制定很大程度在于各个团队之间的协商,大家都有基于数据的科学评判方法,比如产品预估的用户数,产品发版周期,使用带宽等。
  中国的国情更多的是拍脑袋,老板的态度,上面的一句话“不能有事故”,那就是99.999999999999999无限,没有科学的进行评估。
SLO解决的问题
  通过这样一个SLO,之前很多令人头疼的问题就迎刃而解了。
成本和收益的矛盾
  大家都知道维护服务可用性的成本不是线性增长的,到一定程度,增加一个9可能需要10倍100倍的成本,通过SLO让成本和收益取得很好的平衡,假设一个业务增加SLO等级,可以计算一下需要的成本和带来的收益,如果得不偿失就可以不用增加SLO等级。
科学的运维
  有了SLO,对于运维工作有了可量化的标准,运维工程师不用每天提心吊胆,生怕出现故障,只要故障在SLO范围内就是可接受的,节省出很多精力用在更重要的事情上。
稳定和创新的矛盾
  大家都知道运维工程师最不喜欢的就是“线上变更”,一个服务如果不做变更一般都是很稳定的,问题往往出现在变更上。
  可是一个新业务往往需要大量变更,不停的迭代创新。
  这个时候运维会说:别做变更了,稳定是第一位的,出了故障,我们得背锅。
  开发会说:我们得变更,这样才有新功能,才能获取更多用户啊。
  矛盾因此产生了。
  通过SLO很好的解决了这个矛盾,我们先一起给这个业务制定好SLO的等级,如果是需要频繁的变更的,可能SLO等级就会低一些。
  这样在满足业务创新的需求上,只要在SLO范围内,就认为业务是稳定的。
  反之,如果变更太频繁,使故障率超出了SLO可接受的范围,可以要求开发调低变更频率,或者重新制定SLO等级。
  这样就解决了业务既要“稳定”又要“创新“的矛盾。
结语
  SRE Google运维解密是非常好的一本书,它是谷歌运维体系的结晶,但是它也是建立在谷歌”健壮的肌肉“之上,建立在科学评估(非人治)之上,我们可以从中学习,也要冷静思考。
  这是SRE读后感第一篇,后续再读几章,再写点。
  附一个360的招聘==>https://www.addops.cn/page/wanted

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-432300-1-1.html 上篇帖子: APMCon 2017中国应用性能管理大会将于8月10日北京召开! 下篇帖子: Golang Vendor 包管理工具 glide 使用教程
累计签到:567 天
连续签到:1 天
发表于 2018-1-16 09:13:52 | 显示全部楼层
这么好的文章怎么就没有人呢!楼主有SRE书籍吗?

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表