日期

2015-10-23

参与者

agoogler、clarac、docbrown、jennifer和martym

公告

  • 大型事故(#465),造成错误预算耗尽

之前的待办事项评审

  • 确保山羊传送器可以用于传送牛奶

——质子加速中的非线性特质可以预知了,应该可以在几天内解决准确性问题

事故回顾

  • 新韵文的发现(事故465)

—— 12.1亿个请求在连锁故障与潜伏先bug的共同作用下丢失,索引中不存在新的韵文和未预料的流量

—— 文件描述符的bug以修复,已经部署到生产环境

—— 调研使用flux capacitor进行负载均衡,利用负责抛弃来预防再发生

—— 错误预算已经耗尽,生产环境的更新将会停止一个月。除非docbrown能够以该极为罕见、不可预知为理由获得管理层批准

  • AnnotataionConsistencyTooEventual:本周告警5次,可能是由于bigtabale跨区域的复制延迟导致

—— 调查仍在进行,见bug 4898200

—— 最近不会有修复,会提高阈值以减少无效告警的次数

非紧急告警回顾

  • 没有

监控系统修改/静音

  • AnnotataionConsistencyTooEventual,可以接受的延迟阈值从60s提高到180s

资源

  • 处于新韵文事故时借用了一些资源,会在下周下线多余的容量以退还容量
  • 目前的利用率是 CPU 60%、RAM 75%、DISK 44%

关键服务指标

  • OK 99 百分比延迟:88ms < 100ms SLO目标(过去30天)
  • BAD 可用性:86.95% < 99.99 SLO目标 (过去30天)

讨论/项目更新

  • 项目Molere下两周发布

新的代办事项

  • TODO (martym):提高AnnotataionConsistencyTooEventual的阈值
  • TODO(docbrown):将实例数量复原,退还资源