关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问

前言

源公告贴地址在此：关于客户“前沿数控”数据完整性受损的技术复盘

昨日在 "腾讯云的事，是不是很多人以为三副本就是备份，不应该丢数据，很靠谱...." #28 帖子中做出了一些个人的推断

甚至有点怀疑是不是有人手动的“ rm -rf ”然后后续业务直接写花了集群

今天的这份公告的信息算是印证了部分的猜测

正文

公告中提到的部分细节因经验不足产生疑问，希望各位大佬可拍砖指教

疑问 1

在 14:05 时，运维人员从仓库Ⅰ选择了一批云盘搬迁至新仓库Ⅱ，为了加速搬迁，手动关闭了迁移过程中的数据校验；

一个按照高可用、高可靠、数据可信的原则构建的存储架构
显然读取过程中的块级校验是必不可少的，否则数据的可信性无从谈起
（因为根本不知道读取出来的数据是否为异常数据）

校验过程必然需要消耗一定的资源
类似于 ZFS, 需要大量的 CPU 资源进行读取过程中的校验
所以一般的实现方案会把存储与计算分离开来, 降低互相之间的影响

在公告中提到的一点 "为了加速搬迁"
为了实现读取过程中的校验，必然需要消耗一定的资源
独立的存储平台，自然也需要为了这个消耗的资源配备足量的运算资源
读取校验理应默认开启, 且对性能影响近乎无感 (增加了运算延迟)
而在这个公告中提到的"为了加速搬迁"...
那么....

什么情况下关闭校验可以加速搬迁？

疑问 2

在 20:27 搬迁完成之后，运维人员将客户的云盘访问切至仓库Ⅱ，同时为了释放空间，对仓库Ⅰ中的源数据发起了回收操作；

什么情况下才能让运维人员那么着急回收空间释放资源？

疑问 3

在 20:27 搬迁完成之后，运维人员将客户的云盘访问切至仓库Ⅱ 到 20:30 监控发现仓库Ⅱ部分云盘出现 IO 异常。

在线迁移为什么 14:05 分开始的数据迁移要到 20:30 分才发现 IO 异常？

(不了解腾讯云底层的实现架构, 学艺不精没想通, 望各位大佬回帖指教)

johnjiang85

2018-08-08 16:30:13 +08:00

@mhycy #68
这个我也不清楚了。

#67
可能之前没有正确理解的意思，疑问 3 是否是迁移过程中仓库 I 的读取到这个磁盘的请求也一直没有报出 I/O 错误？
我的理解可能是这样的，首先是只是部分数据读出来的不一致，并不是所有数据，且这部分数据大部分数据是冷数据，存在读取很少或根本没有读取到情况；仓库 I 一直正常的完整读取，即使是读取到这个副本的错误数据，校验失败，但是直接读取其他两个正常的副本进行了校验，在业务方看来读取是正常的，错误数据占比非常小，根本达不到报警的阈值，只是排队去做异步修复了。
只是个人推测。