Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
fuxkcsdn
V2EX  ›  Linux

巧合还是被黑了?一周内 3 台虚拟机的硬盘都坏了...

  •  
  •   fuxkcsdn · Nov 15, 2016 · 5857 views
    This topic created in 3512 days ago, the information mentioned may be changed or developed.
    3 台虚拟机都强制 证书登入,使用 3 个不同的证书(其中 2 个证书有密码), ssh 端口都不是标准的 22 端口

    第一台出问题的是我 PC 里的虚拟机,系统是 Debian 7
    半小时前还正常,突然就自动将硬盘挂载成只读,强制重启后进入 grub rescue 模式...后来通过 fsck.ext4 命令修复硬盘才找回大部分数据

    然后上周六的时候发现在 vutrl 中的 vps ( Debian 8 )无法连接,但因为架设在上面的 SS 服务没问题,就没理它了,想说可能是我这边网络问题

    然后今天在试了几个网络都连接不上后就到 vutrl 的后台通过 web vnc 连接上去,看到有硬盘坏道的错误信息,但任何输入都没反应,联系客服让重启...重启后又是进入到 grub rescue 模式...好在这台 vps 只是作为翻 Q 用,没资料在上面就直接重装系统了(没重启之前 SS 服务也都是好好的)

    突然想到上周六连接到 aws 上的 ec2 ( Debian 8 )也连接不上,就登入 aws 的控制台看看,发现最后的网络活动已经是半小时前了(这台 vps 上有业务,运营人员发现登陆不上去让我检查), SSH 也登入不上去,而 aws 又没提供 vnc ,老路子...重启...很好, 4 小时过去了,还无法进入系统, aws 的检查状态卡在 1/2 ...

    真是巧合??还是被黑了呢??我电脑上有保存着这 3 台虚拟机的密钥,而且 putty 上也有保存着 session 。
    但第一台我电脑上的虚拟机没有对外开放,而且发生问题时,我的物理机也处于内网
    Supplement 1  ·  Nov 16, 2016

    aws 上的 ec2 果然也是硬盘问题,新建了一台 ec2,旧卷 mount 不了,提示

    [ 281.510042] EXT4-fs (xvdf2): ext4_check_descriptors: Block bitmap for group 128 not in group (block 2711683072)!
    [ 281.513949] EXT4-fs (xvdf2): group descriptors corrupted! 
    

    我电脑里的 虚拟机 也是遇到这错误,vutrl 上的 vps 也是这错误,现在 aws 上的 ec2 也是这错误,真是巧合???

    Supplement 2  ·  Nov 16, 2016
    又一台阿里云 虚拟机挂了

    aliyun web 终端最后显示的信息



    任何输入都无响应,重启后...



    这台出问题的时间大概是 11 月 10 号下午 6 点左右,和我 PC 上虚拟机出问题的日期一致,我虚拟机出问题的时间大概是下午 2 、 3 点。 aws 的 ec2 最后服务时间是 15 号早上 6 点 44 ,翻墙专用的 vps 直到我强制重启前都可以正常服务,但连接不上去
    Supplement 3  ·  Nov 16, 2016
    BTW ,阿里云 ecs 用的 CentOS 6u5 amd64 系统,不是 Debian
    24 replies    2016-11-17 09:32:56 +08:00
    powergx
        1
    powergx  
       Nov 15, 2016 via iPhone
    aws 的存储是 mirror 3 的,不存在“硬盘坏了”的问题
    sopato
        2
    sopato  
       Nov 15, 2016
    被黑的可能性还是很低的了,而且都是磁盘问题,只能理解成巧合了。
    yangqi
        3
    yangqi  
       Nov 15, 2016
    赶紧喝口水看看会不会塞住牙缝
    fuxkcsdn
        4
    fuxkcsdn  
    OP
       Nov 15, 2016
    @powergx 那现在系统启动不了了😂,我该咋办啊?公司买的帐号里没有人工客服的 license

    @sopato 我得试着去买张彩票试试😂
    ovear
        5
    ovear  
       Nov 15, 2016 via Android
    aws 炸了发工单。。
    fuxkcsdn
        6
    fuxkcsdn  
    OP
       Nov 15, 2016
    @ovear
    At the Basic Support level, you can create account and billing support cases and service limit increase requests, but you cannot create technical support cases.

    还是说在 V2EX 上发工单??
    ovear
        7
    ovear  
       Nov 16, 2016 via Android
    叫 aws 给个 vnc ?
    ouqihang
        8
    ouqihang  
       Nov 16, 2016 via Android
    有相似经历, 2 个不同主机商的 VPS ,重做系统后失联,原因不明。管理页面的操作如关机重启重装没坏,就是连不上,家里的网试过,用第三台美国 VPS 连也不通(第三台也想重置,遇到这种事不敢再动,还要扶墙)。后来想到管理页面的 terminal ,发现 VPS ping 不通外网。分别联系客服, 2 边第一次回复都说搞好了,重装后又掉了, 2 台都一样,有一个直接 offline ,关机重启不能。再次联系,一边换了 IP (他说的,不知有没有换机器),一边直接说本来那个物理机坏了转移到另一台。终于解决,有一家还把我需要的 CentOS7 系统撤下了,一度觉得他们怀疑是用户用 CentOS7 把防火墙玩坏了。一度以为撞鬼了, up time 这么高怎么那么容易坏,还一次坏 2 个在我头上,还是不同主机商。
    fuxkcsdn
        9
    fuxkcsdn  
    OP
       Nov 16, 2016
    @ovear 现在新建一台 ec2 ,把旧的停掉,打算把旧的硬盘挂载到新的上面试试

    @ouqihang 有时候真的不得不怀疑人生了啊...那么巧合的事也能撞上...好在我要交接的资料都写完并交接清楚了,不然离职可就麻烦了...
    fuxkcsdn
        10
    fuxkcsdn  
    OP
       Nov 16, 2016
    @powergx
    [ 281.510042] EXT4-fs (xvdf2): ext4_check_descriptors: Block bitmap for group 128 not in group (block 2711683072)!
    [ 281.513949] EXT4-fs (xvdf2): group descriptors corrupted!
    新建了一台 ec2 ,想把旧卷挂载上来失败,提示...果然是硬盘坏道了吧...
    3 台全部都是这个错误,尼玛,开始怀疑人生了
    likuku
        11
    likuku  
       Nov 16, 2016
    EBS 么?不该这么容易坏啊。

    所以文件放 s3 ,数据放 rds 服务,才是正道啊...
    powergx
        12
    powergx  
       Nov 16, 2016
    @fuxkcsdn 我上过 aws 培训, 硬盘是 raid1 三盘镜像。 磁盘可靠性绝对没问题
    ryd994
        13
    ryd994  
       Nov 16, 2016 via Android
    aws 可以基本排除硬件问题
    如果一升级就挂的话有可能是内核 bug ,这种事情以前有过。但是最近没听说啊……而且是 Debian
    黑 VPS 之类的,除非你运气不好遇上菜鸟,否则谁那么无聊来搞坏你机器?抓个肉鸡不好么?
    会不会是你使用习惯不好老是拔电源,导致文件系统逻辑错误?
    是不都跑了某个自制脚本,特别是用 root 跑?如果直接写入硬盘设备文件,损坏了文件系统结构的话,就是这个样子。
    newghost
        14
    newghost  
       Nov 16, 2016
    碰到过这次的情况,也是一升级系统登不进去,但是里面的某个服务跑得还是好好的,估计是 SSH 登录进程起不起来。


    解决办法是做个镜像,把老机器装个最新的 debian 系统,再把老镜像挂载到新系统里,文件就都找回来了。

    一定要是同一台虚拟机,否则可能网段都不一样。
    justfindu
        15
    justfindu  
       Nov 16, 2016
    我们也遇到过 但不是云 就是自有服务器 同批次的盘 同段时间 坏了 2 块~
    Showfom
        16
    Showfom  
    PRO
       Nov 16, 2016 via iPhone
    vutrl.....楼主来跟着我拼写 VULTR
    fds
        17
    fds  
       Nov 16, 2016
    应该是跟强制重启有关吧。看网上类似错误不少,有个修复在 https://linuxexpresso.wordpress.com/2010/03/31/repair-a-broken-ext4-superblock-in-ubuntu/
    valkjsaaa
        18
    valkjsaaa  
       Nov 16, 2016 via iPhone
    嗯,这应该叫文件系统错误,不是硬盘错误。
    kmahyyg
        19
    kmahyyg  
       Nov 16, 2016 via Android
    上月连续自己租的 enzu cn2 vps 两台不同网段都是被运营商公告一半硬盘空间不可用,然后那边对拷硬盘、恢复备份,换 ssd ,正常服务。

    期间, ss ssh 正常、但无法操作(可登录,无流量出)。

    应该不是偶然事件
    fuxkcsdn
        20
    fuxkcsdn  
    OP
       Nov 16, 2016
    @ryd994 都没升级,基本上就刚装完系统 apt-get upgrade 一下,之后基本不升级...我虚拟机里最后一次执行 apt-get 估计都 1 、 2 个月前了,翻墙专用那台服务器估计都快 1 年没去动它了吧...aws 就没用过 root (不知道 aws ec2 的默认 root 密码)
    拔电源就更不可能了,我自己的虚拟机确实是有几次笔记本来不及关机导致意外关机,但另外几台都是 vps ,都是正常 z 执行命令重启的(而且也基本上没重启过)

    @Showfom 不要在意这些细节 🙈

    @fds ssh 连接不上, vnc 任何输入都无响应了,不重启不行了啊...
    fuxkcsdn
        21
    fuxkcsdn  
    OP
       Nov 16, 2016
    刚跟同事在讨论的时候,他猜测会不会是部署的代码问题
    但所有服务器里也就运行 php 代码, php 的插件也都是用 php 原生插件( yum 或者 apt 安装的),唯一一个第三方插件是 phpredis
    但....我自己的虚拟机当时并没跑任何项目,因为当时我只是在写交接资料,并没运行任何项目,即使有,也得有人访问啊... 翻墙那台 vps 甚至只有 ss 在跑
    liuyanjun0826
        22
    liuyanjun0826  
       Nov 17, 2016
    @fuxkcsdn 强制断电也会造成分区损坏的
    fuxkcsdn
        23
    fuxkcsdn  
    OP
       Nov 17, 2016 via iPhone
    @liuyanjun0826 是没错,关键是这种情况除了强制重启貌似也没其他办法了啊…
    turan12
        24
    turan12  
       Nov 17, 2016
    好吧,我承认我是强迫症,看到 vutrl 恨不得帮 lz 改过来。:p
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2613 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 53ms · UTC 15:36 · PVG 23:36 · LAX 08:36 · JFK 11:36
    ♥ Do have faith in what you're doing.