分享一篇 Google SRE 做 Escalation 和事故应急响应的工程方案介绍帖子

2018-01-29 12:32:23 +08:00
 soasme

本文是 Google Cloud Platform 团队的工程博客新文章,通过不少例子介绍了在 Google 内部是如何在开发和保障服务可靠性之间做权衡。工程师们可以以这篇文章作为标杆结合自家企业本身的需求去完善 Escalation 流程。

点击查看,这篇是原文

Google SRE Escalation 的四个级别:

  1. 停在 SRE 这一层,SRE 得到通知并快速响应。
  2. SRE 搞不定,开始寻求 开发团队的帮助。
  3. 错误持续了好几天,但还是没搞回 SLO,或者 30 天的错误预算花光了,会不让上新,专注解决问题。
  4. 如果更严重,那就牵涉 leadership 还有更多人进来解决问题。

欢迎大家订阅 Techshack Weekly,以下是关注方式:

2439 次点击
所在节点    Google
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/426754

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX