V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
tmtstudio
V2EX  ›  程序员

网易云官方回复说因为业务扩容出现了技术事故,好奇仅仅扩容怎么造成这么大范围事故的,主站都寄了

  •  
  •   tmtstudio · 2024-08-19 23:17:13 +08:00 · 8442 次点击
    这是一个创建于 381 天前的主题,其中的信息可能已经有所发展或是发生改变。

    b61283221d437e067ec681e23ba7f37a.jpeg

    31 条回复    2024-08-20 18:25:13 +08:00
    rc5ayc
        1
    rc5ayc  
       2024-08-20 01:56:52 +08:00   ❤️ 1
    他们把大部分都整体迁移到贵州,属于大迁移,而不是仅仅扩容
    tmtstudio
        2
    tmtstudio  
    OP
       2024-08-20 07:43:08 +08:00 via iPhone
    @rc5ayc 迁移上半年就完成了吧
    ExplodingFKL
        3
    ExplodingFKL  
       2024-08-20 08:39:28 +08:00
    @tmtstudio 八成是迁移完了文档没更新
    SenLief
        4
    SenLief  
       2024-08-20 08:44:28 +08:00
    扩容只是随便编个理由吧
    itechnology
        5
    itechnology  
       2024-08-20 08:57:51 +08:00
    这个图是假的吧,都没有找到这条微博。人家说的是:“大家好,没有删库,没有跑路,故障已陆续修复~
    作为补偿,8 月 20 日 0-24 时,云音乐搜“畅听音乐”,可领取 7 天会员权益到您的账户(具体规则请见活动页面)
    抱歉必须再说一遍,请您息怒~”
    Mianmiss
        6
    Mianmiss  
       2024-08-20 09:10:48 +08:00
    @itechnology 这明显是微博评论
    cuttlefish
        7
    cuttlefish  
       2024-08-20 09:27:59 +08:00
    是真的,我领到了
    aarong
        8
    aarong  
       2024-08-20 09:29:15 +08:00
    总要有个由头来背锅
    opengps
        10
    opengps  
       2024-08-20 09:37:24 +08:00
    大家都是做技术的,任何操作都能带来失败风险这应该是常识。最安全的做法应该是“护网”,非紧急 bug 不调整任何逻辑
    liaohongxing
        11
    liaohongxing  
       2024-08-20 09:43:42 +08:00
    扩容 坑定是不可能的, 魔兽官网 ,网易云 ,网易主站 全都挂 。至于搞成这样子
    starrys
        12
    starrys  
       2024-08-20 09:44:49 +08:00
    不会是看黑马喽太火了想抢热度吧
    EndlessMemory
        13
    EndlessMemory  
       2024-08-20 10:04:34 +08:00
    这就不知道了
    mightybruce
        14
    mightybruce  
       2024-08-20 10:31:23 +08:00
    出现失败风险当然是有的, 据说存储对接出了问题,https://finance.eastmoney.com/a/202408193159519884.html
    裁员裁到了基础设施团队,好了,存储挂了就不是一个服务出问题,多个服务都会访问出问题,
    总体来说, 几个小时能恢复,可用性降到 3 个 9
    CodeCodeStudy
        15
    CodeCodeStudy  
       2024-08-20 10:43:43 +08:00
    @rc5ayc #1 为什么要迁移到贵州?有什么好处吗?
    xmumiffy
        16
    xmumiffy  
       2024-08-20 10:46:32 +08:00 via Android
    @CodeCodeStudy 便宜吧
    zdkk
        17
    zdkk  
       2024-08-20 10:56:21 +08:00
    为啥不放到凌晨搞,非要在下午高峰期搞事情
    815979670
        18
    815979670  
       2024-08-20 10:57:32 +08:00
    这种操作不都半夜进行吗 为什么要 白天迁移
    mightybruce
        19
    mightybruce  
       2024-08-20 10:59:18 +08:00
    机房都是在贵州、西北这些地方, 电费便宜,机房维护成本也低,光机房需要大量散热的空调降温费用就是不小开支其次,离发电电网近。
    28Sv0ngQfIE7Yloe
        20
    28Sv0ngQfIE7Yloe  
       2024-08-20 11:01:19 +08:00
    @zdkk

    如果真是扩容引起的,那么高峰扩容很正常啊
    swLoXtOtd89pGg8t
        21
    swLoXtOtd89pGg8t  
       2024-08-20 11:16:47 +08:00
    @zdkk #17 凌晨要睡觉、、
    810244966
        22
    810244966  
       2024-08-20 11:27:36 +08:00
    之前在掘金看到说网易云音乐整体搬迁到贵州去,不知道是不是这个过程中出现的偏差 https://juejin.cn/post/7389952004791894016
    holyliao
        23
    holyliao  
       2024-08-20 14:20:58 +08:00   ❤️ 2
    @zdkk 网抑云晚上可是使用高峰
    Emiya1208
        24
    Emiya1208  
       2024-08-20 14:25:49 +08:00   ❤️ 1
    没什么不可能的,扩容又没指定怎么扩容,auth 或是 很基础的服务,跨区扩容就要涉及网络变动,网络变动嘛,一条错误的路由就能干废整个集群,甚至要是有人写错了 ip 地址冲突了,直接能让某些正常服务跟着一块儿挂掉。
    kneo
        25
    kneo  
       2024-08-20 15:07:21 +08:00 via Android   ❤️ 1
    @Emiya1208 哈哈,那些动不动就说“不可能”的,干活是最不靠谱的,大坑一般都是这种人搞出来的。
    Jinnrry
        26
    Jinnrry  
       2024-08-20 15:42:25 +08:00
    @Emiya1208 写错一条 ip 地址,干废整个集群这事我干过。当年直接让全公司所有业务挂了几分钟,还好我回滚及时。不过刚好是下班时间,全公司研发都回来看了一个小时监控
    iovekkk
        27
    iovekkk  
       2024-08-20 15:50:34 +08:00
    昨天有一个内部员工的聊天记录传了出来(不知道真假),说的是大幅裁员导致云储存部门就剩一个人了,然后那个人按着交接文档操作,然后操作出了这个事故出来
    tinycold
        28
    tinycold  
       2024-08-20 17:33:34 +08:00
    @iovekkk 好了,现在一个人也剩不了了。/doge
    Emiya1208
        29
    Emiya1208  
       2024-08-20 18:22:25 +08:00
    @iovekkk 剩一个人是有可能的 @tinycold 但是只要不是这个人故意搞的事儿,他是不会被裁的,甚至他想走都走不了的。
    Emiya1208
        30
    Emiya1208  
       2024-08-20 18:23:58 +08:00
    @Jinnrry 正常,我也不小心把 long 写成 nong 过,搞了几分钟故障。不过我发现的比较快,而且相关服务不是基础性的,只是上层的。
    brom111
        31
    brom111  
       2024-08-20 18:25:13 +08:00
    @iovekkk 主要是昨天那个页面看起来 不像是云存储部门有问题吗。 前面入口层面也没做什么紧急处理的样子。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   966 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 21:46 · PVG 05:46 · LAX 14:46 · JFK 17:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.