包含标签 sre 的文章

Sre总结

Google SRE读后感 《SRE Google运维解密》一书由Google SRE团队各成员所写的短文组成,书中记载了SRE团队在支持Google业务规模不断扩大的过程中所总结的经验以及实际案例。即使在IT行业发生翻天覆地变化的今天,此书仍然弥足珍贵,它详细记录了Google迈过分水岭时期的全过程。很显然,这些经历没有办法完全复制,也许只能被模仿,但是却可以启发读者,指引未来。 本书分为以下4部分: 1. 概述——了解SRE的定义,以及该职位与传统IT行业运维职位的不同 2. 指导思想——详细讨论SRE的工作模式、行事方式,以及日常运维工作中关注的焦点 3. 具体实践——理解SRE日常工作背后的理念,讨论具体的构建与运维大型分布式系统的实践 4. 管理——探索Google在培训、内部沟通,以及会议方面的最佳实践 一、概述 什么是SRE?在Google没有“运维”这个职位,只有SRE团队(Site Reliability Engineering)。SRE团队主要由两部分人组成,一部分是全职开发人员,另外一部分人需要掌握两方面的技能,95%的开发技能和5%的运维思想、技能;同时所有人都必须非常愿意、也非常相信用软件工程方法可以解决复杂的运维问题。这样组成的团队具有以下特点:对于重复性、手动性的操作有天然的排斥感;有足够的技术能力快速开发出软件系统以替代手工操作。 二、指导思想 DevOps还是SRE?……

阅读全文

SRE附录C~事故状态文档示范

莎士比亚搜索服务 新韵文+过载事故:2015-10-21 (沟通负责人会随时更新事故概要) 摘要 莎士比亚搜索服务由于新发现的韵文不在索引中而处于连锁故障状态 状态 活跃,事故编号 ##45 事故处理中心 IRC #shakespeare 频道 事故处理组织架构:(参与人) 目前事故负责人:xxx 运维负责人: 计划负责人: 沟通负责人: 下一个事故总负责人:待定 (沟通负责人在交接班时或者每4小时更新一次)……

阅读全文

SRE附录D~事后总结示范

莎士比亚新询文事故总结(事故编号 #465) 日期 2015-10-21 作者 Jennifer、martym、agoogler 目前状态 已经终稿,待办事项正在进行中 摘要 莎士比亚搜索服务出现66分钟的故障,由于新发现了一篇韵文,导致用户流量暴涨。 事故影响 预计12.1亿个请求丢失,没有损失任何收入。 根源问题 由于异常的高负债情况以及搜索词语在 Shakespeare Corpus 中不存在时的一项资源泄露导致的连锁故障的发生,新发现的韵文使用了一个之前从未在莎士比亚文献中出现的词语。这恰恰是用户大量搜索的关键词!在日常情况下。这种资源泄露导致的任务崩溃现象,由于出现非常不频繁,而没有被注意到。 触发条件 潜伏性的Bug被大量上涨流量所触发……

阅读全文

SRE附录F~生产环境会议记录示范

日期 2015-10-23 参与者 agoogler、clarac、docbrown、jennifer和martym 公告 大型事故(#465),造成错误预算耗尽 之前的待办事项评审 确保山羊传送器可以用于传送牛奶 ——质子加速中的非线性特质可以预知了,应该可以在几天内解决准确性问题 事故回顾 新韵文的发现(事故465) —— 12.1亿个请求在连锁故障与潜伏先bug的共同作用下丢失,索引中不存在新的韵文和未预料的流量……

阅读全文