学校超算管理员匆忙上线 CentOS 8 结果翻车了

2021-03-22 12:44:39 +08:00
 xuegy

最近学校大跃进式把所有超算节点从 7 升级到 8 了,结果大翻车。

系统升级完,第一件事当然是登进去重新编译代码。结果新系统居然忘装 nano,没办法先用 vi 改配置文件吧,给管理员发了一个 ticket,10 分钟后回复我装好了,看来新系统装完了还挺闲的。

进 module 里面看看更新了啥,结果也乱套了。原来 CentOS 7 老的 module 还没清理干净,跟新的摆在一起都不知道谁是谁,只能通过版本号猜。(截至发帖时清理的差不多了)

编译的时候 openmpi 也翻车了,找不到libpmi2.so.0。这个应该是属于重大运维事故了吧?管理员在一整天之后才修复,告诉我说是忘记在头节点上编译 pmi 了。上线之前这么基本的组件都不测试一下的吗?

总结经验教训,学校级别的运维水平参差不齐,从 7 升级到 8 翻车是难免的。年底不能白嫖 CentOS 以后肯定得换系统,到时候接着翻车。

11400 次点击
所在节点    Linux
76 条回复
superrichman
2021-03-22 16:08:22 +08:00
生产环境敢直接给系统跨版本升级的简直是勇者
haisi0525
2021-03-22 17:04:57 +08:00
牛比~ CentOS 我们现在大部分业务都还是 6 的,7 的只有新业务在用。8 的都还没业务的正式环境敢用。
byzf
2021-03-22 17:09:46 +08:00
上 8 还是要折腾一番的,要是遇到点问题不是下线个几个钟头就能搞定的。
ji39
2021-03-22 17:12:44 +08:00
怕怕,谁的坑
aaa5838769
2021-03-22 17:52:43 +08:00
至少过 1-2 年再考虑上 8
onice
2021-03-22 18:48:36 +08:00
我也是和其他 V 友有同一个疑问,centos8 马上都要结束生命周期了,为啥还要升级了。centos 整个发行版都要升级为 stream,未来 centos 就再也不是企业级了。不过 centos7 还可以战几年。
salmon5
2021-03-22 19:10:39 +08:00
企业 2022-2023 年再考虑 8 也不迟,到时候直接上 centos stream 9
waising
2021-03-22 19:12:05 +08:00
为了不纠结 7 还是 8,新服务器都用了 debian 10
vhwwls
2021-03-22 19:17:43 +08:00
搞了六七年 Linux 的运维过来唠叨一句
无论是从实际经验还是从一些项目的官方文档建议来看,升级操作系统只有在少数的几种情况下是必要的:
- 重大的安全漏洞
- 当前旧版本上的某个软件存在某个 Bug,该 Bug 已经触发或者有潜在触发的可能
- 在当前系统上跑的软件需要系统更新至更新的版本
不过就实际经验来看,在线上跑的软件很少需要整个系统都升级的情况,即使像 K8s 明确在 3.10 内核上频繁创建 Pod 会触发 CGroup 内存泄露的 Bug 的这种问题,也可能通过仅仅升级内核而非整个操作系统都升级来解决。
所以这个帖子除了吐槽没有任何意义,正常的运维只要带了脑子上班都不会升级操作系统。
:)
secretman
2021-03-22 19:40:11 +08:00
我选 ubuntu
m4d3bug
2021-03-22 19:51:35 +08:00
世界前 20 的超算跑 ubuntu 的一个手都数得过来,楼上几个花式创造 kpi ?
Tony042
2021-03-22 19:53:12 +08:00
你们学校运维上线太快了,我校超算软硬件升级( RHEL 系统迁移+新增 EPYC 节点+安装从 NVIDIA 那里薅来的 5000w 美元显卡羊毛)整整花了圣诞节 1 个月的假期,期间超算完全关闭,登陆节点都上不去,然后软硬件搞好后还试运行了好一阵子,才 OK,升级系统这种大事,上线快肯定要出毛病的
Tony042
2021-03-22 19:55:16 +08:00
@venster 超算上大部分都是科学计算程序,并行程度很高,一个任务都是几百个 cpu 核心同时算,内存都是几百 g 或者上 T 占用,mpi 很重要,根本离不开
BIAOXYZ
2021-03-22 20:03:43 +08:00
@sadfQED2 我这是第一次听说 CentOS 4 。。。以前最旧的也就是 5,还很少见,其实 6 都见得不多。。。
sadfQED2
2021-03-22 20:30:51 +08:00
@BIAOXYZ @chenqh 10 多年的老项目了,centos4+php5.4,还依赖很多动态库。根本没人敢动
mikeguan
2021-03-22 20:45:01 +08:00
我的关注点是编辑器为什么用 nano ? vi 虽然比 vim 难用很多但也是秒 nano 的啊,进到 nano 页面完全不知所措
chenqh
2021-03-22 20:50:14 +08:00
@sadfQED2 10 多年前的老项目,java4?
Nitroethane
2021-03-22 21:18:59 +08:00
8 就是个坑,官方仓库里好多 package 有问题,我已经遇到好多问题了,真被恶心到了。赶紧要么降级,要么换别的系统
ulosggs
2021-03-22 21:30:00 +08:00
学校的运维大部分是本校研究生兼职的,有时候爱把集群当自己的 PC 折腾。
abbottcn
2021-03-22 21:31:36 +08:00
从描述来看,
运维经验不足呀.
没有编辑器, 可以结合 cat echo sed 等修改配置文件呀, 不会连 cp cat 等无法使用吧?

至于各种编译, 应该说服管理员安装一个 Singularity 就高枕无忧了.
如果运维方不晓得什么是 Singularity, 让他多看看新闻吧.

我自己也有集群, 仅是规模不大, 系统是混跑的, CentOS 6.x 混 RHEL 6.y, x, y 1~10 均有.
机器是浪潮不同批次送来的.

只要机器能正常运行, 不死机, 不重启, 不 kernel panic,
合理采用各种镜像技术, 完全可以应付好几年的.
数年之后, 机器也就到寿命了.

CentOS 系统并没有说要完犊子. 根据我自己理解官方的说法.
之前是, RedHat 测试, 推送给 RHEL; centOS 社区编译, 推送给 CentOS 用户.
现在是, RedHat 测试, 推送给 CentOS, 再推送给 RHEL.
就是之前滞后的命运要完犊子.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/763914

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX