首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
V2EX  ›  云计算

腾讯云更新了[硬盘丢失数据]原因。人工运维迁移数据,跳过数据校验和跳过数据留存

  •  1
     
  •   wph95 · 2018-08-08 01:06:53 +08:00 · 8345 次点击
    这是一个创建于 441 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://mp.weixin.qq.com/s/8JSPY6vHPhg8pX0JwjqttQ

    第一是正常数据搬迁流程默认开启数据校验,开启之后可以有效发现并规避源端数据异常,保障搬迁数据正确性,但是运维人员为了加速完成搬迁任务,违规关闭了数据校验;

    二是正常数据搬迁完成之后,源仓库数据应保留 24 小时,用于搬迁异常情况下的数据恢复,但是运维人员为了尽快降低仓库使用率,违规对源仓库进行了数据回收。

    77 回复  |  直到 2018-08-17 22:55:32 +08:00
        1
    yexm0   2018-08-08 01:11:47 +08:00
    也就是说这件事完完全全是可以避免的咯?
        2
    feverzsj   2018-08-08 01:13:49 +08:00
    运维锅已经背好了
        3
    humansjl   2018-08-08 01:26:37 +08:00
    如果真是这样的话应该运维 leader 一起背锅,培训、审计均不到位。
        4
    wph95   2018-08-08 01:47:35 +08:00   ♥ 1
    @yexm0
    如果固件 bug 不是能避免的 凭啥敢说 9 个 9 的数据可靠性。
    隔壁帖子有大佬说了的
    > 高可用磁盘底层架构为*非同批次*、*非同固件*的等容量、等架构磁盘组建硬件 /软件 RAID
        5
    ryd994   2018-08-08 04:32:02 +08:00 via Android
    /t/477457 神预言
    @baskice
        6
    chinvo   2018-08-08 04:40:33 +08:00   ♥ 4
    疼逊这是完全推翻之前自己关于“硬盘固件 bug ”的说法了
        7
    jalja27   2018-08-08 05:35:32 +08:00 via Android
    对亏腾讯不做疫苗
        8
    husons   2018-08-08 05:48:05 +08:00 via iPhone   ♥ 1
    这是不是说明赔偿问题还有的谈?
        9
    woodface2233   2018-08-08 07:01:17 +08:00 via iPhone
    又是运维的事情?
        10
    kokutou   2018-08-08 07:28:13 +08:00
    运维:锅我背好了。
        11
    webjin1   2018-08-08 08:11:57 +08:00 via Android
    资本家是追求利润最大化的,一分钱一分货。别以为上云就省钱又有保障。硬件成本摆在那。
        12
    LU35   2018-08-08 08:35:49 +08:00 via Android   ♥ 6
    之前洗地的被啪啪打脸
        13
    Tink   2018-08-08 08:36:12 +08:00 via iPhone
    这不是打自己脸???这么蠢么
        14
    somebody18   2018-08-08 08:38:06 +08:00 via iPhone
    @yexm0 不可能避免

    长期内部各部门间扯皮导致审计,保护机制跟不上,又有裁撤 KPI,只能手动操作,运维被要求尽快手动回收资源,加上长时间工作,疲劳导致。
        15
    iConnect   2018-08-08 08:40:15 +08:00 via Android
    @somebody18 人在极度疲劳状态下,智商真的是很低的。
        16
    ctsed   2018-08-08 08:45:24 +08:00 via Android
    赔钱吧
        17
    l32606   2018-08-08 08:51:39 +08:00 via Android
    说明产品和技术都是没问题的,多少个 9 都不是在吹牛。问题只是个别人员的导致。安心用吧
        18
    masir   2018-08-08 08:53:23 +08:00 via Android
    不靠谱哦
        19
    hzw   2018-08-08 08:59:55 +08:00   ♥ 6
    危机公关的思路就是这样的,损失最小化,保腾讯金字招牌不倒,让无名无姓的人来承担责任。这个通告的潜台词就是,第一我腾讯没问题;第二宣传下 我腾讯的制度完善,保障机制合理,请大家放心选购。
    说到底,腾讯核心思想还是“糊弄”。
        20
    iConnect   2018-08-08 09:01:50 +08:00 via Android
    @hzw 运维里面最不靠谱的确实也是人工操作啊
        21
    zhongkouwei   2018-08-08 09:02:23 +08:00
    @l32606 人员问题才更可怕吧,因为无法避免。技术问题还可以优化
        22
    AllOfMe   2018-08-08 09:18:43 +08:00 via Android
    应该楼下会出现,为什么不自己备份的水军
        23
    lcatt   2018-08-08 09:19:19 +08:00
    @LU35 可以去手机微信端看看这篇文章的评论。“有问题敢于承认,敢于公开,好样的”
        24
    AllOfMe   2018-08-08 09:20:35 +08:00 via Android
    运维人员能出这个问题,现在不发生以后也会发生,只能尽量完善运维的制度吧
        25
    mengzhuo   2018-08-08 09:21:08 +08:00
    @hzw 请先认真看下通告好么?

    整篇通告都是在说鄙厂不好,制度不完善,各个环节有问题。
    而且有这种程度的对外复盘,是头一遭。
    这里涉及的问题跟 14 楼说的差不多。

    你想挂操作运维的名字,这哥们以后就不用干这行了。

    很多人想当然,黑大厂作为政治正确了,然而底层运维、程序员都满是无奈。
        26
    Felldeadbird   2018-08-08 09:24:16 +08:00
    运维人员将客户的云盘访问切至仓库Ⅱ,同时为了释放空间,对仓库Ⅰ中的源数据发起了回收操作。
    才几分钟就进行回收……不是应该放多 1-2 天才操作了。估计是操作人员对自己的产品过于自信了。
        27
    jeffersonpig   2018-08-08 09:25:00 +08:00
    这时候特别体现出 微信公众号文章底下的评论由公众号自己筛选显示 这一功能体制的重要性。2333333
        28
    lcatt   2018-08-08 09:25:15 +08:00
    @hzw 内部肯定问责的
    @mengzhuo 根本原因还是运维管理混乱,风控缺失,真正要改的话是要下不少成本的。
        29
    iwiki   2018-08-08 09:26:16 +08:00
    意思就是所谓的系统有一部分是人工操作,而且没有校验,而所谓的安全性,也就是这些人工操作都要 100%按照要求来做。那么问题就来了,论制度都是满分,论执行都要减分,那他这个多少个 9 都是虚的咯。
    感觉就是拉了业务外包给人家做的感觉,人家没做好,也不能怪我咯。
        30
    LadyChunsKite   2018-08-08 09:32:19 +08:00
    @iwiki "论制度都是满分,论执行都要减分",,,我想到别的地方去了。。
        31
    qbmiller   2018-08-08 09:32:53 +08:00
    配个 13.14 万多好, 更有纪念意义
        32
    hanru   2018-08-08 09:36:05 +08:00 via Android
    鹅厂竟然能发这么一篇文章,有些意外。
        33
    chengzhii   2018-08-08 09:38:08 +08:00
    aa
        34
    byuc   2018-08-08 09:42:16 +08:00
    进一步建议之后怎么不给个温馨提示?
    温馨提示:
    1、云硬盘快照产品将于 2018 年第四季度正式商业化,商业化范围包括腾讯云中国站和国际站的用户,商业化后所有存量快照和新产生的快照将根据占用存储容量进行收费。
        35
    Anhedonia   2018-08-08 09:47:08 +08:00
    腾讯爆抽自己家水军的脸
        36
    n2ex2   2018-08-08 09:52:01 +08:00 via Android
    @byuc 套路满满
        37
    momocraft   2018-08-08 10:06:15 +08:00   ♥ 1
    推给临时工总比三备份被推翻好
        38
    UGLW   2018-08-08 10:23:24 +08:00
    在 7 牛云 微信公众号看到一个评论。
    > Stupid penguin
    聪明的人类总是把鸡蛋从一个篮子里挪到另一个篮子里而不自知。往往是为了工具而忘了目的。
        39
    southsala   2018-08-08 10:29:09 +08:00
    超售王
        40
    desususula   2018-08-08 10:32:01 +08:00 via Android
    现在看看之前那篇帖子里的水军,差点笑出声
        41
    luoway   2018-08-08 10:32:23 +08:00
    临时工 +1
        42
    swulling   2018-08-08 10:34:23 +08:00
    @byuc 套路,先搞一波危机让大家都用快照,然后收费

    套路满满
        43
    tearain   2018-08-08 10:39:59 +08:00
    哈哈哈,看来之前的很多没脑子的水军大部分都是自来水啊
        44
    okwork   2018-08-08 10:54:45 +08:00
    @momocraft 三副本策略也是行业通行的方案,没必要推翻。可能情况是三副本策略没有落实到位,或者实施不规范。
        45
    johnj   2018-08-08 10:59:46 +08:00
    @Felldeadbird 应该是上面急着要空间
        46
    wph95   2018-08-08 11:07:46 +08:00
    @chinvo
    不能说完全推翻,
    固件 bug 是压垮骆驼的最后一根稻草
    故障都是多个意外的叠加
        47
    laucenmi   2018-08-08 11:36:50 +08:00
    是谁的运维问题?
        48
    zhangdawei   2018-08-08 11:49:03 +08:00
    真恶心
        49
    wlsnx   2018-08-08 11:51:41 +08:00
    运维背锅
        50
    jusalun   2018-08-08 12:08:22 +08:00
    - -所以这是天灾+人祸了?
        51
    mhycy   2018-08-08 12:11:08 +08:00   ♥ 1
    https://www.v2ex.com/t/477885

    看起来有更深层的问题
    人祸只是让问题暴露出来了而已
        52
    gclove   2018-08-08 12:12:45 +08:00
    就没说怎么赔偿
        53
    airdge   2018-08-08 12:16:18 +08:00
    在揪出三副本后 总要找一个出来背黑锅
        54
    joysir   2018-08-08 12:26:02 +08:00
    假如是运维操作导致,那么腾讯云资源是得多紧张或者领导是得多没经验,切仓库后马上就回收?而且操作都不需要走流程吗?运维直接关校验、直接回收?

    还是认为是三备没落到实处,但是直说是不可能的,毕竟 99.9999999% 摆在那。然后顺势学着临时工说法推到运维头上,毕竟人是可能出错的。
        55
    henneko   2018-08-08 12:27:18 +08:00 via iPhone
    诶? ifanr 相关报道最高赞的那位拍着胸脯说没用三备份,这么快就打脸啦?
        56
    c0878   2018-08-08 12:37:24 +08:00
    腾讯云这么大的分布式存储系统居然还需要人工操作来平衡容量 不可想象
        57
    pinews   2018-08-08 12:37:55 +08:00
    @mhycy 说的好,就好比领导给你一半的钱让你买正常价位的货,除了违规操作,就是违抗命令,一般情况下,违规操作不一定引发问题,特殊情况下就爆出来了
        58
    mhycy   2018-08-08 12:43:03 +08:00 via iPhone
    @pinews 只是这违规操作的原因。。不敢细想
        59
    LucasLee92   2018-08-08 12:43:06 +08:00
    看得出来腾讯打算糊弄到热度消失了
        60
    qiuqiuer   2018-08-08 13:30:22 +08:00 via Android
    腾讯的水军不少
        61
    ihainan   2018-08-08 13:35:25 +08:00
    运维人员是个急性子呀……
        62
    est   2018-08-08 13:45:11 +08:00
    运维:你们都让开。我来背锅。
        63
    openbsd   2018-08-08 14:47:44 +08:00
    @est #62
    想多了
    运维都是顶着锅上班的
        64
    x7395759   2018-08-08 14:58:21 +08:00
    居然是手动迁移扩容,腾讯云的技术实力还是有待提高。

    不过居然可以发一篇这样的文章,表示技术上态度还是可以的。

    但是我依旧不信任腾讯云,这件事情需要花很长的时间或者是同类产品出现重大误差时才能够消除影响。
        65
    kkk123   2018-08-08 15:03:08 +08:00
    刚开始不是说硬盘损坏导致?还是我记错了? 搜了下渣浪还有这新闻描述, 编故事也是一天一版本,PR 够敬业
        66
    yanhao1991   2018-08-08 15:52:24 +08:00
    这么重要的操作竟然可以违反流程操作?感觉不可信
        67
    winglight2016   2018-08-08 19:27:46 +08:00
    @somebody18 说到长时间工作疲劳,有个同事在命令行里敲命令:rm -rf ./*,漏了个.,结果。。。他说是太疲劳的缘故
        68
    jadec0der   2018-08-08 21:26:59 +08:00
    @yanhao1991 重要?不知道做过多少次,日常操作而已。工厂里都有人违反操作流程,把自己玩死,这事要不是苦主出来硬磕,真就屁大点事
        69
    billlee   2018-08-08 21:55:08 +08:00
    @byuc #34 快照也不是真的把数据复制一份吧,按照这样的操作恐怕加快照也没用
        70
    loveour   2018-08-08 22:08:15 +08:00
    这是完完全全腾讯自己管理的锅了呀,这么操作出事只是早晚的事情呀。
    @jadec0der 不遵守流程这个确实是有,而且,说实话,有的人连自己的命都可以不顾,就是心特别大,我也不懂为什么。之前看过一个化工行业事故的帖子,很多都是因为有规范不遵守,其实那些规范都是血的教训换来的啊!印象特别深的是一个小哥检修管道,按照规范要先检测是否带压,他就不测,文章作者问他,他还说要不你来,然后打开兜了一头一脸的浓硫酸,很快就死了。还有其实这次的疫苗也是生产不遵守规范,但是这肯定是会出问题而且也早晚会被发现啊!我觉得这个心理真的可以好好探究下,感觉很可能心里想的就是没事的,心存侥幸。
        71
    ryd994   2018-08-09 04:54:44 +08:00 via Android
    @billlee 有用
    快照不会和原数据放一起
    这是一个故障域的概念
        72
    icop   2018-08-09 09:17:01 +08:00
    我就说 玩了勇者的游戏,你们不信。rm -rf *
        73
    ryd994   2018-08-09 12:31:17 +08:00
    @icop 取决于你所在的目录,这可能只是我的日常而已
    同时也取决与你的用户。平时不要总是用 root 操作就是这个道理。sudo 前 think again
        74
    mingl0280   2018-08-09 12:55:14 +08:00
    这么蠢的人祸……
    腾讯云到底在干什么……
        75
    billlee   2018-08-09 22:17:10 +08:00
    @ryd994 #71 我以为快照是 CoW 的
        76
    aaler88   2018-08-17 01:31:53 +08:00
    云服务不好做,都会出问题,只是出问题多少而已。
        77
    zhh35791   2018-08-17 22:55:32 +08:00
    总要有人背锅
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2999 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 31ms · UTC 11:11 · PVG 19:11 · LAX 04:11 · JFK 07:11
    ♥ Do have faith in what you're doing.