分类 sre 中的文章

SRE附录C~事故状态文档示范

莎士比亚搜索服务 新韵文+过载事故:2015-10-21 (沟通负责人会随时更新事故概要) 摘要 莎士比亚搜索服务由于新发现的韵文不在索引中而处于连锁故障状态 状态 活跃,事故编号 ##45 事故处理中心 IRC #shakespeare 频道 事故处理组织架构:(参与人) 目前事故负责人:xxx 运维负责人: 计划负责人: 沟通负责人: 下一个事故总负责人:待定 (沟通负责人在交接班时或者每4小时更新一次)……

阅读全文

SRE附录D~事后总结示范

莎士比亚新询文事故总结(事故编号 #465) 日期 2015-10-21 作者 Jennifer、martym、agoogler 目前状态 已经终稿,待办事项正在进行中 摘要 莎士比亚搜索服务出现66分钟的故障,由于新发现了一篇韵文,导致用户流量暴涨。 事故影响 预计12.1亿个请求丢失,没有损失任何收入。 根源问题 由于异常的高负债情况以及搜索词语在 Shakespeare Corpus 中不存在时的一项资源泄露导致的连锁故障的发生,新发现的韵文使用了一个之前从未在莎士比亚文献中出现的词语。这恰恰是用户大量搜索的关键词!在日常情况下。这种资源泄露导致的任务崩溃现象,由于出现非常不频繁,而没有被注意到。 触发条件 潜伏性的Bug被大量上涨流量所触发……

阅读全文

SRE附录F~生产环境会议记录示范

日期 2015-10-23 参与者 agoogler、clarac、docbrown、jennifer和martym 公告 大型事故(#465),造成错误预算耗尽 之前的待办事项评审 确保山羊传送器可以用于传送牛奶 ——质子加速中的非线性特质可以预知了,应该可以在几天内解决准确性问题 事故回顾 新韵文的发现(事故465) —— 12.1亿个请求在连锁故障与潜伏先bug的共同作用下丢失,索引中不存在新的韵文和未预料的流量……

阅读全文