腾讯云发布 0408 故障报告

32 天前
 kincaid

原文: https://mp.weixin.qq.com/s/2e2ovuwDrmwlu-vW0cKqcA

省流版: 故障的原因是云 API 服务新版本向前兼容性考虑不够和配置数据灰度机制不足的问题。

本次 API 升级过程中,由于新版本的接口协议发生了变化,在后台发布新版本之后对于旧版本前端传来的数据处理逻辑异常,导致生成了一条错误的配置数据,由于灰度机制不足导致异常数据快速扩散到了全网地域,造成整体 API 使用异常。

发生故障后,按照标准回滚方案将服务后台和配置数据同时回滚到旧版本,并重启 API 后台服务,但此时因为承载 API 服务的容器平台也依赖 API 服务才能提供调度能力,即发生了循环依赖,导致服务无法自动拉起。通过运维手工启动方式才使 API 服务重启,完成整个故障恢复。

想起了之前传闻某团队修复健康码因为健康码无法展示进不了大楼的事情了

9392 次点击
所在节点    云计算
73 条回复
7VO54YYGvw3LOF9U
32 天前
好奇健康码那事后来在哪修复的,门口蹲着?
sakilascott
32 天前
灰度跟生产不可能一模一样,系统越复杂,差异越是大。
在大多数复杂系统中,这个问题是个千古难题。
kincaid
32 天前
@hugi 人家运维公司说不清楚,不知道有没有当时的大佬现身说法了,https://news.sina.cn/gn/2021-12-22/detail-ikyamrmz0473496.d.html
standchan
32 天前
跟滴滴的那个有点像,升级出现问题后回滚困难。强行回滚时候又发现互相依赖的问题。
BeiChuanAlex
32 天前
随着时间的发展,人员不断流动,系统越来越大,业务越来越复制,代码越来越多,数据越来越多,导致的结果就是没人能了解全局了,所以这肯定不是最后一次故障,以后还是会有的。
weijancc
32 天前
结果是因为升级 API 导致的... 是不是该抓一个程序员来祭天
kincaid
32 天前
@weijancc yysy 拉个程序员祭天意义不大 hhh
alanhe421
32 天前
循环依赖的解决办法不就是再引入一个 C ,解开 AB 的相互依赖?
zmzeng12
32 天前
API 不兼容导致了事故,但灰度机制不足才导致事故扩大到了全网。
hongfs
32 天前
crackidz
32 天前
挺好的,发一个故障分析,起码态度到位了
okaysir
32 天前
复杂度提升导致崩溃度增加。国内 IT 界甚至这届人类体系都是这趋势。
xmumiffy
32 天前
“期间共有 1957 个客户报障” 控制台都打不开了,是怎么报障的,只有有客户经理的才能算受到影响?
totoro52
32 天前
有人要打包走人了
yanpj1992
32 天前
@xmumiffy 估计工单系统还正常吧
StinkyTofus
32 天前
@alanhe421 #8 没有用的, 谁都知道问题的解决办法, 但是随着人员流动, 系统越来越庞大, 所有的机制都会维护不到位。
caqiko
32 天前
题外话,你们的 100 元代金券到账了吗?
xmumiffy
32 天前
@yanpj1992 工单在控制台里面,整个控制台当时都 502/504/internal error 了
Hopetree
32 天前
我看了一个文章,是关于服务状态监控的,他们的服务状态监控就是个摆设,状态有延迟也就算了,还不全(比如服务 A 挂了也影响到了 B ,他们的状态里面没有显示 B 的异常)
xiaket
32 天前
相比于国外厂商的 PIR, 这个故障分析很是避重就轻, 避实就虚.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1032290

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX