滴滴史上最严重服务故障是因为“k8s”版本升级错误?

161 天前
 sud0day
5290 次点击
所在节点    Kubernetes
30 条回复
sanxianA
161 天前
好奇+1 ,但是一般这种 k8s 集群不是应该都有双活集群设计或者灾备设计的嘛
kdd0063
161 天前
难道生产环境敢直接 k8s 升大版本?这未免也太心大了。好歹搞个灰度环境用金丝雀策略试试水吧
assassing
161 天前
看了眼居然还在用 1.12 以下版本。
控制节点升错了版本确实没有什么办法能回退,只能重建集群。估计开始还想着能不能降级回来,所以停了那么久。
dianso
161 天前
是升级 xp 的时候弄坏了,各种谣言
NX2023
161 天前
想起来前几周的 Gopher China ((
NX2023
161 天前
kuituosi
161 天前
明显是借口,而且很长时间都没有恢复
明显是数据出问题了,工程师修复数据太花时间了
fujohnwang
161 天前
嘀嘀为啥也崩了这么长时间?
https://afoo.me/posts/2023-11-29-didi-crash-badly.html
gam2046
161 天前
运维问题导致中断服务不至于这么久,即使直接上生产,即使升崩了,即使整个集群重建,12 个小时还是太久了。

个人偏向认为#7 说的数据问题的可能性更大。由于误操作或者其他原因导致生产数据被污染需要更久的恢复时间。

网上有用户说故障期间,计费、派单等异常,虽然不知道滴滴是怎么设计的,但是以普遍理性而言,如果集群内部分服务降级甚至不可用,一般会导致依赖服务降级或不可用。但是出现短距离的打车出现千元的计费,猜起来确实更像数据被污染了。
mightybruce
161 天前
k8s 是包含服务注册、降级、也是很多服务配置中心以及元数据存储的地方
滴滴技术在文章里写原地大版本升级,艺高人胆大,链接在下
https://mp.weixin.qq.com/s/nMSIsS72fSXGqJO9Vy_Pfw
xuanbg
161 天前
@mightybruce 他们这两个方案,要么原地升级,要么全量替代,确实很极端。。。

就不能用折衷方案?就是部署一套新的运维环境,这要不了几台机器。然后新环境上一个 node 就切一点流量,一会儿功夫也就切完了,只要不在这个过程中升级服务,哪里会有什么 P 事。

因为作为生产者的服务和数据两个环境都是一样的,所以对消费者而言就无感。
golangLover
160 天前
@mightybruce 他都能写出来了,肯定不是一个月前的升级了。。。
kiddingU
160 天前
@sanxianA master 节点在这个机房
dyllen
160 天前
@golangLover
@xuanbg 文章都一个月前的了,能公开写出来,升级工作肯定早就做完了。
kiddingU
160 天前
@dyllen 别人多机房多集群了?这种原地升级的本身就很极端。。。。
wr410
160 天前
根据我的经验,超过 1 小时恢复不了的问题都是数据库问题
kiddingU
160 天前
原地升级简直爆炸,不理解为啥不是单独新增机房慢慢迁移,出了事故就是这帮人自己背锅了,只能说艺高人胆大~
golangLover
160 天前
@dyllen 对阿。这么多人都理解错了。。。还有说是 k8s 版本看错的,也有人信。真的什么有人都有
kiddingU
160 天前
@golangLover 文章写出来了,所有的机房所有的集群就都升级完了?一个公司的机房又不是一个,内网升级了部分机房,然后写出技术文章,有毛病吗?
buffzty
160 天前
@gam2046 升级是很快 有些兼容问题很难解决 比如你升级了 k8s rook-ceph 就不兼容了 但是 rook 官网说它兼容 k8s 这个版本 实际上根本运行不了 在网上也找不到答案 只能慢慢看 ceph 源码 他们这 18 个小时要么是去找人了 要么就是去看源码了 可能就改一个参数就好了 但是这个参数官网没写 网上也搜不到

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/996276

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX