AWS 复盘报告出来了

12 小时 32 分钟前
 lxdlam
https://aws.amazon.com/cn/message/101925/

省流:
DynamoDB 的 DNS 子系统出现了 Race Condition 导致可用端点被清空,依赖的服务连接失败
-> 在此期间 EC2 的核心管理器被大量旧 event 冲击过载,导致资源池空间上报不准确和网络状态在 VPC 内扩散出现延迟
-> NLB 在接受这些积压消息的时候来回切换检测结果( healthy 和 unavailable 之间跳变),下游服务连接受到影响
2030 次点击
所在节点    Amazon Web Services
4 条回复
Ketteiron
12 小时 5 分钟前
一句话总结:DynamoDB 自动化系统因潜在竞态条件导致删除了自己的 DNS 记录。
感觉各种重大事故都是因为自我删除或者自我重启失败。
mytsing520
11 小时 58 分钟前
越是底层的故障,影响越大;越是影响大的故障,往往故障原因越简单
kevan
11 小时 55 分钟前
所以还是互不干涉吧
ypcs03
9 小时 19 分钟前
还好没有互相依赖,要是 DDB 的恢复依赖 EC2 的 instance launch 就搞笑了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1167860

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX