V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yangdehua
V2EX  ›  分享发现

[图文]Google SRE 出书了,简单总结目前已看的一些内容

  •  
  •   yangdehua · 2016-03-31 14:31:38 +08:00 · 2491 次点击
    这是一个创建于 3157 天前的主题,其中的信息可能已经有所发展或是发生改变。

    原文发在公众号,图文并茂,这里貌似弄个图都很麻烦

    https://mp.weixin.qq.com/s?__biz=MzI4NjE2NTA1OQ==&mid=401873938&idx=1&sn=233c8272c0fcbb26e4c6c03859c845ea&scene=0&key=710a5d99946419d9929ff81b710b5ca91533b09cb6815a0fa52591457f003d8ebdc11625b1b9ae7ae69bad36f31f19a6&ascene=0&uin=MTUzNzgyNQ%3D%3D&devicetype=iMac+MacBookPro12%2C1+OSX+OSX+10.10.4+build(14E46)&version=11020201&pass_ticket=wo7UgGH1%2BEx%2BBSk23E1I4mnnT8caTSkk9hwE7m79RTk%3D

    Google 出了一本 Site Reliability Engineering 的书。这本书讲的是 How Google Runs Production Systems 。

    回顾了上一家公司(阿里技术保障部 DBA 团队)的 5 年,经历了天猫多次双十一,还在支付宝 DBA 团队待过大半年的时间。深刻的理解到一个庞大的网站的稳定性,需要一支身经百战的运维技术团队来操盘。

    Google 作为互联网公司的前排兵,能出这样一本书,对于运维人员来说,真的非常值得一读。

    这本书的中心思想

    1.建设和运维分布式系统是大规模生产基础设施根本,在这里面增加这几个要求:可扩展,可靠,高效.要达到这些要求,需要大量的优秀的设计和试错。

    2.这本书收集了很多论文和文章,由谷歌的网站可靠性小组的主要成员讲解,在过去的十年如何成功从这些深水走过。

    3.从这本书,将学习如何谷歌持续监控并部署在世界上一些最大的软件系统,它的网站可靠性工程师团队如何学习和中断后可改善,以及他们如何平衡冒险 VS 可靠性,错误的预算。

    回到这本书,主要分了四个部分

    1.网站可靠性保证是神马?和传统 IT 行业惯例的有哪些不同?

    2.检测模式,行为和关切的领域,影响着一个网站可靠性工程师的工作

    3.既要理解原理,又能实际操作,这就是 SRE 工程师的工作:构建和操作大型分布式计算系统?

    4.探索谷歌的最佳实践培训,沟通,和会议,或许有适合您的团队可以借鉴的

    前面几章的总结

    第五章 ,消除苦逼的活,这里真是写到我心坎里头了。我相信做过运维的人苦逼的活没少干。 苦逼的活其实是挑战个人的能力的地方,可否化繁为简,可否从一堆屎一样的事情里面做出一朵花来。

    先写着这么多

    对了,附上书的链接 http://shop.oreilly.com/product/0636920041528.do

    2 条回复    2016-03-31 16:57:26 +08:00
    strwei
        1
    strwei  
       2016-03-31 16:24:07 +08:00
    为什么壳子做得那么丑
    yangdehua
        2
    yangdehua  
    OP
       2016-03-31 16:57:26 +08:00
    @strwei 什么壳子?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1169 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 18:09 · PVG 02:09 · LAX 10:09 · JFK 13:09
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.