关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问

前言

源公告贴地址在此：关于客户“前沿数控”数据完整性受损的技术复盘

昨日在 "腾讯云的事，是不是很多人以为三副本就是备份，不应该丢数据，很靠谱...." #28 帖子中做出了一些个人的推断

甚至有点怀疑是不是有人手动的“ rm -rf ”然后后续业务直接写花了集群

今天的这份公告的信息算是印证了部分的猜测

正文

公告中提到的部分细节因经验不足产生疑问，希望各位大佬可拍砖指教

疑问 1

在 14:05 时，运维人员从仓库Ⅰ选择了一批云盘搬迁至新仓库Ⅱ，为了加速搬迁，手动关闭了迁移过程中的数据校验；

一个按照高可用、高可靠、数据可信的原则构建的存储架构
显然读取过程中的块级校验是必不可少的，否则数据的可信性无从谈起
（因为根本不知道读取出来的数据是否为异常数据）

校验过程必然需要消耗一定的资源
类似于 ZFS, 需要大量的 CPU 资源进行读取过程中的校验
所以一般的实现方案会把存储与计算分离开来, 降低互相之间的影响

在公告中提到的一点 "为了加速搬迁"
为了实现读取过程中的校验，必然需要消耗一定的资源
独立的存储平台，自然也需要为了这个消耗的资源配备足量的运算资源
读取校验理应默认开启, 且对性能影响近乎无感 (增加了运算延迟)
而在这个公告中提到的"为了加速搬迁"...
那么....

什么情况下关闭校验可以加速搬迁？

疑问 2

在 20:27 搬迁完成之后，运维人员将客户的云盘访问切至仓库Ⅱ，同时为了释放空间，对仓库Ⅰ中的源数据发起了回收操作；

什么情况下才能让运维人员那么着急回收空间释放资源？

疑问 3

在 20:27 搬迁完成之后，运维人员将客户的云盘访问切至仓库Ⅱ 到 20:30 监控发现仓库Ⅱ部分云盘出现 IO 异常。

在线迁移为什么 14:05 分开始的数据迁移要到 20:30 分才发现 IO 异常？

(不了解腾讯云底层的实现架构, 学艺不精没想通, 望各位大佬回帖指教)

nullornull

2018-08-08 12:13:19 +08:00

@lyl35023 一开始我也准备这么回复楼主,然后我想了下,就和楼主想法一样了.
@mhycy
我还有个疑问,复盘公告中说"当天上午 11:57，我们的运维人员收到仓库Ⅰ空间使用率过高告警，准备发起搬迁扩容",而公告中描述的"本次事故起源自因磁盘静默错误导致的单副本数据错误"好像并没有对仓库Ⅰ的数据的正确性造成影响,导致迁移的直接原因是"仓库Ⅰ空间使用率过高告警",这个空间使用率过高和磁盘静默错误有什么关系,还请各位大佬指教下.

johnjiang85

2018-08-08 13:30:10 +08:00

@mhycy
疑问 1：什么情况下关闭校验可以加速搬迁。
分布式存储的读取校验并不是只是校验本副本的 hash （其实存储更多是 crc 校验本数据块，当并不是所有的存储都会有 crc 校验），而是说要把 3 副本的数据都读出来进行对比校验，这样关闭校验可以节省大量的磁盘 I/O，速度就算快不了一倍也差不多。

疑问 2：什么情况下才能让运维人员那么着急回收空间释放资源？
这个没什么疑问，就是源仓库空间水位太高，且写增长非常快，当然这些都不能把保留 24 小时变成立即回收，至少人员持续观察 30 分钟无异常还是必须要有的，所以不排除运维人员长时间工作疲劳、减少告警等其他原因。

疑问 3：前面大家有回复。