V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
oblivion
V2EX  ›  程序员

亲手造成的运维事故:在 Live CD 环境下部署并运行了 8 个月

  oblivion · 222 天前 · 29833 次点击
这是一个创建于 222 天前的主题,其中的信息可能已经有所发展或是发生改变。
前情提要:今年春节时去部署了一套内部系统,访问量不大,加上临近春节协调资源难,就先单机部署了,
对方提供的是 H3C 的物理机,准备安装 Ubuntu 系统,对运维要求带桌面安装,
中途被电话打断,回到机器旁边看到已经在 Ubuntu 桌面了以为对方运维帮装好了,
于是直接部署好了我们的系统,测试没问题就离开了,后面也一直相安无事,没出过什么问题。

直到昨天晚上组里同事去给他们更新部署,由于各种巧合提示磁盘空间不足,于是各种操作后给重启了机器,
发现.....进 Live CD 桌面,目录是空的,重启弹出光盘,提示找不到启动磁盘,
通宵一夜后就在刚刚给我打来了电话,我:????
各种记忆恢复术后想起来,当时 Ubuntu 压根就没装进硬盘啊?

由于是单机部署,暂时没想到能恢复数据的方法...
175 条回复    2024-01-16 13:56:35 +08:00
1  2  
LokiSharp
    1
LokiSharp  
   222 天前 via iPhone   ❤️ 8
找对方运维背锅吧
lrh3321
    2
lrh3321  
   222 天前
没有备份的数据都可以认为是不重要的,这锅对方运维至少有一半是跑不了的。
lloovve
    3
lloovve  
   222 天前 via iPhone   ❤️ 2
正常人不会重启就备份数据吧?这个问题在于楼主,话说 livecd 应该一眼就能看出来啊,桌面有个安装图标
dcsuibian
    4
dcsuibian  
   222 天前
牛逼
cmdOptionKana
    5
cmdOptionKana  
   222 天前   ❤️ 2
我还是认为对方运维(甚至更高的领导)责任重大,重要的数据至少每 24 小时备份一次,看情况保留 3 至 10 个副本是“安全”级别的要求。
wangxiaoaer
    6
wangxiaoaer  
   222 天前 via iPhone   ❤️ 6
两个大聪明。
0xsui
    7
0xsui  
   222 天前
数据肯定恢复不了啊,都是跑在缓存和内容里面的,掉电清空了,能找回就见鬼了
kingfalse
    8
kingfalse  
   222 天前 via Android   ❤️ 71
翻译翻译:win PE 里玩了 8 个月游戏。6666
davidyin
    9
davidyin  
   222 天前 via Android
還以為服務器都是沒有桌面的。
Routeros
    10
Routeros  
   222 天前
linux 真稳!
wonderfulcxm
    11
wonderfulcxm  
   222 天前 via iPhone   ❤️ 15
本日最佳笑话
k9982874
    12
k9982874  
   222 天前 via Android
两个运维都不做检查吗?
msg7086
    13
msg7086  
   222 天前
没事,你就当硬盘坏了。
msg7086
    14
msg7086  
   222 天前   ❤️ 1
@lloovve 正常的运维会每天(最差最差也是每月)自动化备份数据,优秀的运维会找方案做实时备份数据并制定 3-2-1 备份计划,极其优秀的运维还会每隔几个月做一次灾备演练。
wuzhewuyou
    15
wuzhewuyou  
   222 天前   ❤️ 2
666

话说提示磁盘空间不足就没 df -h 看下磁盘空间啊
des
    16
des  
   222 天前 via iPhone
两个大聪明,话说提示磁盘不足为什么需要重启?
roundgis
    17
roundgis  
   222 天前 via Android
8 個月不備份說明也不是什麼重要的東西
devopsdogdog
    18
devopsdogdog  
   222 天前   ❤️ 3
由于各种巧合提示磁盘空间不足,于是各种操作后给重启了机器
真的会运维吗? 随便一个 df 之类的都能发现吧。
ivslyyy
    19
ivslyyy  
   222 天前   ❤️ 1
@kingfalse 单机本地存档游戏
Tink
    20
Tink  
   222 天前
666666
yfixx
    21
yfixx  
   222 天前 via Android
数据应该不重要吧
xgfan
    22
xgfan  
   222 天前 via iPhone
搬小板凳看戏,太乐了。
formant
    23
formant  
   222 天前   ❤️ 10
有卧龙的地方,必有凤雏
paopjian
    24
paopjian  
   222 天前   ❤️ 1
卧龙凤雏, 一言不合重启机器
maemolee
    25
maemolee  
   222 天前   ❤️ 14
经典的:重启逝世
salmon5
    26
salmon5  
   222 天前
锅 5:5 开
Masoud2023
    27
Masoud2023  
   222 天前
瞎猫碰到死耗子
zhumengyang
    28
zhumengyang  
   222 天前
卧龙三米之内必有凤雏
daimiaopeng
    29
daimiaopeng  
   222 天前
牛逼
crayygy
    30
crayygy  
   222 天前
有望成为近期最佳

不过桌面上那么大一个 Install Ubuntu 一直没人看到么...
Richardhtw
    31
Richardhtw  
   222 天前
卧龙凤雏.jpg
collery
    32
collery  
   222 天前
重启不是正常操作么 嘿嘿嘿
wangybsyuct
    33
wangybsyuct  
   222 天前
1 、桌面上有个 install Ubuntu 的图标。
2 、/ monunt 点只有 2G ,文件系统名叫/cow,分区非常多,比正常的多太多了
3 、没有编译环境、什么环境都没有。运营的环境至少安装个 gcc 吧。
这些都是异常情况。
TORYOI
    34
TORYOI  
   222 天前
牛逼
Felldeadbird
    35
Felldeadbird  
   222 天前
1. 对方运维主要责任。机器安装系统给个 live cd 环境?
2. 己方没有做好异地备份,次责。
3. 谨慎重启操作系统,系统运行久了,日常部署多了,没做部署日志的话。一旦重启容易遗忘一些重要配置。
darksword21
    36
darksword21  
   222 天前
这竟然还能跑 8 个月?
goodryb
    37
goodryb  
   222 天前   ❤️ 2
live CD:从没想过有一点我还能上生产跑业务,满足了
wonderfulcxm
    38
wonderfulcxm  
   222 天前 via iPhone
好笑归好笑,不过我查了一下,有些 live cd 的确可以把数据持久化的
defunct9
    39
defunct9  
   222 天前   ❤️ 1
高,实在是高!
hokori
    40
hokori  
   222 天前
live CD 跑起来了
EEEEx
    41
EEEEx  
   222 天前
反正主锅不是你
chenliangngng
    42
chenliangngng  
   222 天前
8 个月,这要寄啊
Sokia
    43
Sokia  
   222 天前
过于逆天了 发给运维同事了
noErr
    44
noErr  
   222 天前
@wonderfulcxm 看起来已经重启啦,,
oneisall8955
    45
oneisall8955  
   222 天前 via Android
Linux 真稳😆
Jreen
    46
Jreen  
   222 天前
这个经历真够离谱啊……
zhangyq008
    47
zhangyq008  
   222 天前
看你们的甩锅技术了。。。
qiyilai
    48
qiyilai  
   222 天前
成功缓解了周一上班的不适
alsas
    49
alsas  
   222 天前
卧龙凤雏
yolee599
    50
yolee599  
   222 天前
Live CD 运行 8 个月不挂也是真的牛批!
excitedXXX
    51
excitedXXX  
   222 天前   ❤️ 3
live CD 遗言:这辈子值了。
oblivion
    52
oblivion  
OP
   222 天前
@lrh3321 #2 @roundgis #17 @yfixx #21 某种意义上来说...数据确实不算重要,年后就忘了这件事了,甚至早上还想了几分钟什么时候有这个系统了

@cmdOptionKana #5 @msg7086 #14 正常我们是做了备份策略的,只不过对方在内网用,没公网,临近春节找不到人开个 minio/ftp/nfs 之类的服务给我们做备份用,年后这事也忘记了,一直没出过问题

@davidyin #9 是对方运维强烈要求带桌面,正常我们也就 cli 部署了

@Routeros #10 是啊,真稳,Live CD 跑那么久都没出问题

@wuzhewuyou #15 @des #16 @devopsdogdog #18 组里另一个同事昨天晚上去搞的,他发现磁盘没分区没挂载,也没想到居然是在 Live CD ,手动分区挂载准备迁移数据发现挂不上,就直接给重启了

@lloovve #3 @k9982874 #12 @crayygy #30 @wangxiaoaer #33 @darksword21 #36 @goodryb #37 当时临近春节,对方各种催他们想早点下班,第一次在物理机装带桌面的部署,我也没在意桌面的 Install Ubuntu 图标,关键是呢,一切都太顺利了,内网连接正常,usb 共享了 4G 网络进去,也正常上网,apt 更新,装各种依赖,dotnet restore ,npm install ,docker run ,全程一次性完成没出问题,万万没想到这是在 Live CD ,本想春节后加个副本和协调个备份服务的,这事给忘记了
msg7086
    53
msg7086  
   222 天前   ❤️ 1
@oblivion #51 apt 更新完竟然没重启这是我没想到的。
一般至少要重启一次,测试一下 docker 在重启后有没有自动起来吧。
liuhongbind
    54
liuhongbind  
   222 天前
这能运行 8 个月,也是 6
assiadamo
    55
assiadamo  
   222 天前   ❤️ 1
今天的好心情来源于此
Raint571
    56
Raint571  
   222 天前   ❤️ 1
忍不住大笑了起来
ysc3839
    57
ysc3839  
   222 天前 via Android
楼主能否透露一下后续情况吗?是否因此受到处罚啥的?
idblife
    58
idblife  
   222 天前
忍不住笑了。。。
可以列入奇葩故障排行榜
defunct9
    59
defunct9  
   222 天前
必然还是你的锅,Live 系统 df 一把一下就能看出来。
Basstorm
    60
Basstorm  
   222 天前
真的牛逼,整笑了
rocksolid
    61
rocksolid  
   222 天前
客户想着咱尾款付了呀,你给我弄个不定时炸弹
mark2025
    62
mark2025  
   222 天前
装完系统,我一般会重启两次服务器~
mark2025
    63
mark2025  
   222 天前
“组里另一个同事昨天晚上去搞的,他发现磁盘没分区没挂载,也没想到居然是在 Live CD ,手动分区挂载准备迁移数据发现挂不上,就直接给重启了”

可以抓住这点:运行没问题,重启有责任 哈哈
duke807
    64
duke807  
   222 天前 via Android
自爆卡车
Mithril
    65
Mithril  
   222 天前   ❤️ 6
你这个贴子,和首页那个 2000 块要破解微软邮箱验证码方案的,可以承包我这一周的笑点。。。
NessajCN
    66
NessajCN  
   222 天前
「哪里能随便重启生产环境的啊!你看被你搞崩了吧!」
甩锅完毕
Eytoyes
    67
Eytoyes  
   222 天前
就是赛博华佗来了也是于事无补,除了 卧槽 之外想不出别的词了
guanzhangzhang
    68
guanzhangzhang  
   222 天前
ubuntu 的 live cd 我记得桌面有个 install 的图标的👀
xixibb
    69
xixibb  
   222 天前
@oblivion #52 真的佩服你,你是咋这么细心一个一个的回复这么多人的 ?上上下下的找好麻烦啊。
uiosun
    70
uiosun  
   222 天前
@lloovve 至少对半开,不可能全怪楼主

——如果贵司根本不存在"数据备份"的概念,主打的就是一个“不死万万年,人死鸟朝天”,那也是相当硬核的。
twofox
    71
twofox  
   222 天前
笑死,绝了
smallYear
    72
smallYear  
   222 天前
一般人还真想不到部署的应用能跑在 live cd 下
Ally
    73
Ally  
   222 天前
太强了,live cd 环境竟然这么稳,能跑 8 个月
kenvix
    74
kenvix  
   222 天前
对方运维背大锅,让装系统装哪去了?
wangkun025
    75
wangkun025  
   222 天前 via Android
我不信
wudi77
    76
wudi77  
   222 天前
今日最佳帖。
8Bobo8
    77
8Bobo8  
   222 天前 via Android
我还是感觉这个 Live CD 太强了,整整八个月。。
lscho
    78
lscho  
   222 天前 via iPhone
过于离谱。。。。我做梦都想不到这样的场景
ucando
    79
ucando  
   222 天前
这个 docker run 也挺魔性, 竟然不用挂载磁盘, 说明确实没太多数据需要永久保存的
docx
    80
docx  
   222 天前 via iPhone
同情,看看后面怎么处理吧
wondering
    81
wondering  
   222 天前 via Android
强,这没出事的话,磁盘够的话,是不是还能运行个一年🐶
JoeoooLAI
    82
JoeoooLAI  
   222 天前
。。。这个也太。。。。
oblivion
    83
oblivion  
OP
   222 天前   ❤️ 1
@LokiSharp #1 @cmdOptionKana #5 @msg7086 #14 @yfixx #21 @Felldeadbird #35 @zhangyq008 #47 @ysc3839 #57 @defunct9 #59 @rocksolid #61 @mark2025 #62 @NessajCN #66 @kenvix #74

更新最新情况:

关于甩锅情况:早上接到电话就已经先按 @NessajCN #66 锅先甩给同事了(开个玩笑),已经重新装好系统部署好在用了,
关于背锅情况:对方运维也忘记具体情况了,暂时没人背锅(对方计划甩锅 SSD 故障),暂时也不需要背锅,
关于系统情况:这一套是几家运营商都在用的非关键系统,本次出问题的是其中一家运营商的某地某公司,主要是用于管理外包工单和调用接口发短信通知,通讯录,改派,通过其他系统接口关联资源之类的功能,历史数据用途不大,当天用完数据就没什么用了,
关于数据情况:本质上是 Excel 导入导出管理系统,网管电脑也没删下载目录,要恢复数据的话通宵几天还是能恢复的,
关于尾款情况:对方一次性全付,没尾款
关于想不通的地方:为什么啊为什么啊,为什么能运行 8 个月都没出问题,就普通办公区临时机柜,没有 UPS ,没多路市电,没挂硬盘,还能稳定运行这么久
ayase252
    84
ayase252  
   222 天前 via iPhone   ❤️ 1
调机上正线(
oblivion
    85
oblivion  
OP
   222 天前
@ucando #79 是有数据库和 redis 的,想不通磁盘满了为什么还能正常工作
@docx #80 沟通好了,非关键系统没什么需要处理的,对方运维讲实在不行甩锅 SSD 故障
@wondering #81 可能磁盘早满了吧,昨天是需要加个功能更新部署,不去动说不定明年都没发现
flyqie
    86
flyqie  
   222 天前
什么是牛逼,这就是牛逼。

话说运维强烈要求带桌面是什么操作。。
IvanLi127
    87
IvanLi127  
   222 天前 via Android
部署完项目居然没重启一次试试服务能不能自启🤣
果然是能跑就别动,动一下都可能会以意想不到的方式垮掉
ysc3839
    88
ysc3839  
   222 天前 via Android   ❤️ 1
@oblivion LiveCD 应该是 overlayfs 吧,叠加层估计在内存里,所以内存足够大的话是很稳定的
ysc3839
    89
ysc3839  
   222 天前 via Android
@oblivion 如果你想问为什么能长期不重启,我家里的路由器也可以呀
guo4224
    90
guo4224  
   222 天前
@LokiSharp 甩锅才是最重要的
maskerTUI
    91
maskerTUI  
   222 天前
过于传奇
8675bc86
    92
8675bc86  
   222 天前
一群神人……
anubis482
    93
anubis482  
   222 天前   ❤️ 1
@ayase252 何止调机上正线,简直 tm 是调机跑图定长交路
weeei
    94
weeei  
   222 天前
「运维要求带桌面安装」,就这一点,运维就得背锅。
ZH9c418
    95
ZH9c418  
   222 天前
就这么跑了八个月简直是人间奇迹
uselessVisitor
    96
uselessVisitor  
   222 天前
Linux 真稳定啊
zhlxsh
    97
zhlxsh  
   222 天前 via iPhone   ❤️ 1
@ysc3839 #88 而且内存带 ecc 小问题能自己纠错。去掉了硬盘故障率更低了。系统也确实稳定。业务量又不是很大,造就了传奇。唯一的缺点就是数据没了,反正不重要😂
lc4t
    98
lc4t  
   222 天前
今日最佳!!!
roundgis
    99
roundgis  
   222 天前 via Android
@oblivion 這是 ubuntu 的活廣告 不錯
encro
    100
encro  
   222 天前
啊,你自己愿意背锅,,,怎知道 cd 是什么是否放入的呢。
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3011 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 46ms · UTC 08:14 · PVG 16:14 · LAX 01:14 · JFK 04:14
Developed with CodeLauncher
♥ Do have faith in what you're doing.