运维事故,公司虚拟化服务器 ALL IN BOOM 了

202 天前
 cjpjxjx

单机跑的 Proxmox VE ,硬盘超发了,同事为了升级一台虚拟机内 300 多 G 的内部项目,在下班前打包备份全部项目文件到虚拟机本地目录(虚拟机内磁盘剩余 400G ,以为没问题,就先下班了),此时没人知道该虚拟机所在的宿主机物理磁盘实际仅剩余 200 多 G ,结果就是大家都下班后,有其他部门在加班的同事反馈内部系统登录不了,开发数据库也连不上,在家准备远程到公司电脑查看,结果发现 VPN 也登不上了,远程处理不了只能前往公司处理,然后就发现 Proxmox VE 宿主机物理磁盘被干爆了,导致上面跑的好几个内部系统、数据库和 VPN 全部 GG 了,迁移了几个虚拟磁盘到其他物理磁盘后所有服务恢复,总共导致服务中断两小时,还好全部服务都是对内的而且是下班时间,没造成什么大影响,群里通报一下差不多就过去了,自己引以为戒

我是刚接手不久,还没来得及优化,已经采购了硬盘,正在路上呢,没想到就挂了。。。

6405 次点击
所在节点    职场话题
39 条回复
lifekevin
202 天前
运维不管怎么交接,总是能留下大大小小的坑等着后人一脚踩进去
iloveayu
202 天前
这还好啦,刚接手锅不能算你的,只是恰好雷到你手里炸了,并且你还提前预判(买硬盘)了。
赶紧要钱把 VPN 拆出来搞个硬的,有电就有网,这种事要自己来回跑不值啊。
Andim
202 天前
把数据放虚拟磁盘里 这就过分了
cqmzgg2023
202 天前
感觉 PVE 没 ESXI 稳
Iamsonny
202 天前
数据还在,这多是小问题。。
更别说是内部系统。无所谓。。。
Iamsonny
202 天前
不过很少见有公司跑 pve 的。。
Felldeadbird
202 天前
系统可以恢复就不是大问题了。就怕 boom 了之后,有一些服务启动不了。里面数据还跑不出来。
Felldeadbird
202 天前
上面描述有点歧义,不是大问题指的是数据可以恢复,业务也正常运作。不是指这个事故不大。
paranoiagu
202 天前
硬盘还是要分配多少实际占用多少。
baicx
202 天前
@cqmzgg2023 #4 在 op 这个情景中,与是 pve 还是 esxi 没关系。esxi 物理磁盘不够了照样挂,那是就会有人说感觉 esxi 兼容性没 pve 好。
yyzh
202 天前
@baicx 因为服务器的系统支援列表里一般都是支持 esxi.pve 的我还真没见过服务器系统列表里有它的.
fs418082760
202 天前
我家 pve 跑了 5 年了,公司还是 esxi 方便
加个硬盘都要命令 不方便
Jirajine
202 天前
@yyzh #11 pve 就是 Debian ,买了 Debian 支持的服务器也可以支持 pve 。
www5070504
202 天前
内存 硬盘超配的 只能说胆子真大
yyzh
202 天前
@Jirajine 也是不支持.哈哈.可能也没啥公司会用 debian 吧.
263
202 天前
别的不说,既然有业务在上面跑,基础监控预警都没一个的吗?
chanChristin
202 天前
机器有价数据无价,数据没丢就是好事。
cjpjxjx
202 天前
@263 业务系统有监控,宿主机没监控🥶,正准备下个月部署一套监控来着
cqmzgg2023
202 天前
业务不都有虚拟磁盘吗?怎么会把宿主机给填满。
ervqq
202 天前
为何不上云?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/983760

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX