记录一下刚刚发生的内部业务系统故障

2019-02-14 14:12:22 +08:00
 zhujinliang
公司有一内部业务应用,运行在公司机房里的一台服务器上,同机房里还有宽带接入、核心交换等设备。
公司有两处办公地点,A 处为老办公室,设备有些老旧,服务器也放在这边; B 处为新办公室,我们技术部在这边办公。两办公室各自有独立的局域网以及公网 IP,使用 IPSEC VPN 连通。

上午 9:40 左右,有同事反映业务系统打不开或加载超时。毕竟系统跨着公网,这种故障偶有发生,我们像往常一样检查 VPN 是否通畅、两个路由器负载是否过高、是否有某 IP 流量异常。
检查一圈下来没有发现异常,我们这边打开正常,A 处路由器负载有点高,但不像是故障原因。于是跟同事们说可能 A 处网络有卡顿,大家稍后再试一下。
这个事就暂时这样了。

上午 11:00 左右,越来越多的同事反映系统无法使用,我们尝试打开系统,发现故障升级了,报 502 错误,此时肯定大家都无法使用了。
通过 SSH 登录业务服务器,ps 查看发现业务应用没有运行,查看日志发现数据库表有错误。
我们部门领导已打车奔赴前线调查故障原因以及安抚用户情绪。
尝试使用 SQL 命令修复表,失败,提示无法创建临时文件,没有权限。担心硬盘故障,df 查看剩余空间足够,dmesg 没有报告硬盘写入错误,SMART 报告健康,松了口气。
中间看了下 uptime,服务器刚刚被重启过。
继续尝试修复表,通过万能的 StackOverflow 得知可以使用 myisamchk 修复表,于是停掉数据库,进入数据目录,尝试修复表文件。
修复进行顺利,在修复了若干表后,11:30 左右通知同事们业务系统可用了。

与此同时,前线的领导说故障原因找到了。
系某领导所在楼层的交换机故障引发。
某品牌某些比较老的交换机在长时间使用后会出现一种故障,以前见到过,交换机会在工作中突然进入一种异常状态,表现为超高的丢包率。
该领导发现自己上网卡顿,系统打不开,于是他拿起了机房的钥匙,把整个机柜断电,再重新上电来重启设备。服务器意外掉电又导致数据表损坏。

整个故障过程先是网络卡顿导致几个同事偶尔出现加载失败的情况,然后交换机故障使得该领导以为故障迟迟未得到解决,于是他试图重启机房里的设备解决故障。可能他之前也这样做过,幸运的是没有造成服务器上的文件损坏,而且解决了故障。

总结:
网线千万条,稳定第一条。
重启不规范,运维两行泪。
7014 次点击
所在节点    程序员
49 条回复
hellovx
2019-02-14 14:16:26 +08:00
重启这领导太硬核了……
TomatoYuyuko
2019-02-14 14:18:59 +08:00
非物质文化遗产:电视机雪花拍两下就好了(滑稽
padapen
2019-02-14 14:20:02 +08:00
于是他拿起了机房的钥匙,把整个机柜断电,再重新上电来重启设备.....看见这种,真想一板砖拍过去
Hancock
2019-02-14 14:20:12 +08:00
领导给力
mscststs
2019-02-14 14:20:18 +08:00
要么换个机房,要么换个领导吧
yulgang
2019-02-14 14:25:05 +08:00
本以为重启治百病
moonsola
2019-02-14 14:26:32 +08:00
"与此同时,前线的领导说故障原因找到了。系某领导所在楼层的交换机故障引发"
交换机:这锅我一个人背不动。
logicr
2019-02-14 14:27:03 +08:00
@TomatoYuyuko 肯能本来领导拿着钥匙进去拍了机柜的,没用然后再用了断电重启打法。
misaka19000
2019-02-14 14:29:37 +08:00
你们领导牛逼
seven777
2019-02-14 14:42:55 +08:00
让孩子拿玻璃碗,就准备好被摔!运维的责任,谁都不要怪!
另外,只要是生产项目,不论项目大小,稳定第一!!!
jjianwen68
2019-02-14 14:43:00 +08:00
这么朴实刚健的领导
donyee
2019-02-14 14:45:12 +08:00
领导:这点小问题,我重启下试试;欧耶,解决了...
hasbug
2019-02-14 14:49:18 +08:00
哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈
Eytoyes
2019-02-14 14:50:26 +08:00
北京市第三运维中心提醒您,算了。。。直接两行泪吧
ziding
2019-02-14 14:50:53 +08:00
MySQL 太不靠谱,这种情况下居然表会坏~
fange01
2019-02-14 15:01:06 +08:00
哎呀这个 ID 很熟悉、、领导操作方式也很熟悉。
4357
2019-02-14 15:02:08 +08:00
牛逼
dko
2019-02-14 15:06:00 +08:00
重启也就算了。。。直接断电,这谁扛得住啊
guan123
2019-02-14 15:08:23 +08:00
最后的总结是亮点 ,不过话说回来,整体都被重启了,也都没感知到,监控做的有点那啥啊
zarte
2019-02-14 15:09:26 +08:00
领导可以不背锅

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/534931

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX