实验室服务器大家都是怎么管理使用的？

2021-12-19 20:48:49 +08:00

chizuo

我们的使用

为每台服务器创建用户，有一个网页面板展示所有服务器的使用情况（主要是 GPU)，大家相当于竞争状态，看到哪台服务器空了，有需要了，就把项目重新部署到空余的服务器上跑。

优势

相当程度上，能够充分利用每个 gpu ，如果大家积极性高的话，不停的 switch 可以充分利用所有自愿（比较牵强）

劣势

劣势太明显了，有时候跑着停了一下或者正在改代码、debug ，显卡就被别人用上了。你就要重复部署自己的项目到空余的服务器上，而且文件碎片严重，也比较浪费存储空间，很多时候大家的项目都是复制了好几遍在各个服务器上。一些大的数据集、静态文件也散落各地。

请问大家有没有比较好的服务器使用管理办法？

比较为难的是，服务器的配置不一样的，有的老 titan ，有的 3090 、Tesla ，大家都不管模型大小都倾向于在新服务器上跑，有些旧服务器都是空闲状态。

注意不能改造、重做系统，因为大家都历史遗留 checkpoint 各种文件、特定环境，而且各系统横跨各种版本。

或者有没有在这种管理方式下，比较方便的项目文件同步？

目前用 rsync 写了脚本，但是由于文件规则复杂（有时候只同步代码，有时候又要同步模型），很麻烦，而且很容易出错，想象你在几台服务器上，那个跑 A 实验，这个跑 B 实验，有时还要把两者结果传来传去。甚至做实验旧了，都忘记了实验结果在哪台服务器上。

谢谢大家

4970 次点击

所在节点

23 条回复

mjikop1231

2021-12-20 15:20:08 +08:00

SLURM ( https://github.com/SchedMD/slurm)
存储也是 NFS ，同一套文件系统，不过我们是 DL ，所以 IO 瓶颈严重的很。

当集群玩了，排队功能还是很好玩的。

zxCoder

2021-12-21 11:14:05 +08:00

我们直接分配到人。。。。。直接野生使用

hhs66317

2021-12-24 14:44:37 +08:00

服务器都在一个机房的话，存储用 NFS 挺好的，万兆内网，这样至少最烦人的文件同步就不用担心了

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/823176

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX