一个运维可以管理 5 万台服务器吗？怎么管？

理性讨论，如果有 5 万台服务器，虚拟机和物理机都行，一个人能管好吗？如果一个人管不好，那怎么管？

有没有大佬有这么多台服务器的管理经验？也希望能够分享一下经验，改进大家的运维效率。

liuxu

2021-09-25 13:12:02 +08:00

既然 100 条了，那我翻个页

wangyzj

2021-09-25 13:48:01 +08:00

假设每天坏一块硬盘

yidingz

2021-09-25 14:13:14 +08:00

这么说吧，一台机器的寿命是三年算 1000 天，就算这五万台机器都是能运行三年不出错不坏，轮流着换。平均每天要下线 50 台机器，上线五十台。

一个人，就每天拔两个机架 50 台机器的网线电线，拉出来，装 50 台新机器进去，插线，（假设系统都是自动 provisioning ），嗯我估计够呛。就给你 50 台 1U 的机器让你拉去仓库，你就累残了。

实际机器跑个一年半载的可能就要维护，实际每天硬件维护超过 100 台机器，嗯 996 估计是不行，007 都扛不住。

gvhao001

2021-09-25 19:25:19 +08:00

管理？什么叫管理！开机关机算不？保持清洁算不？

js8510

2021-09-26 02:22:40 +08:00

看你怎么定义 “运维”。。
我是 oncall 过比五万台更多的机器的服务。高度自动话以后。。其实 5 万还是 10 万台机器，差距不大。manual operations 也不是很多。。甚至有>50%的时间写代码，开会什么的。更多的就是：
- 工作时间 alert 都看一看。
- 非工作时间高 priority 的 alerts 看一看。低的直接忽略。
- 出事了有各种 data set, logging 。有经验的话很快就能找到问题大致方向。熟悉了（因为出了 SEV 都要 review 的）也能知道大致会经常遇到的问题。
- 搞不定就把别的 oncall 拉起来。怀疑 downstream 拉 downstream .怀疑是谁的 change 就把谁叫起来问。纯粹需要帮助也可以拉别人起来。
- oncall 结束以后总结一下，noisy alerts 想办法调一调。有些简单的问题想一想能不能搞个 auto remediation(比如有些情况明显是 auto-scale 有问题，那就在这种条件下让他自己关了 and scale to max size 等第二天上班时间再解决。这样你非工作时间就不用搞这些了。。还有比如某些 feature 还不问题也不中要，那你监控到它挂了直接给他关了然后把 alert forward 给 onwer 等天亮了再说等等等).

所以我觉得是需要点经验的事情。。但是多数时间一个人搞的定的。当然偶尔也有倒霉的时候。

guo4224

2021-09-26 12:00:45 +08:00

5 台和 5 万台没区别吧

flyingghost

2021-09-26 12:09:11 +08:00

老板：公司成立起来了，广告也打出去了，客户也忽悠到了。现在就差开工干活了。
小王，公司现在已经有 5w 台服务器了，你得出个方案，负责管好。
小王：我才刚入职就我一个运维怎么管 5w 台？唔。。。先上 V2 求个方案吧。

xingtian

2021-09-26 12:38:48 +08:00

5 万台运维我不知道，但是我现在一个人管理 10 万台终端跟服务器的网络安全跟中毒的问题，还能成天摸鱼

jsion

2021-09-26 15:02:30 +08:00

真搞笑，一个运维连传话筒都做不了，每天审批工单就够整活了，别说在庞大机群规模底下做运维。感觉就是打广告拿需求的。
你们充其量也就一个做监控平台的，难道也想把整个 IaaS 所有管理层面的工作都给抹平了，你真给想屁吃，先追齐深信服的云解决方案再说吧，最多就上层运维平台的一个子系统，各种虚拟化计算、存储、网络管理、流程引擎、服务编排、迁移和灾难恢复、计费治理等基础资源纳管能力都没有，谈什么服务器管理，真就当服务器管理就开关机 /遇障重启呗
而想要靠一个平台系统来解决这些问题几乎是不可能的，功能能齐备就很不容易了，更何况各公司架构和技术栈千奇百态，光采购适配就有的搞，一般大点公司都是自研的，外采管理压根就不用想，出了问题都是自己的命，哪敢交给别人
一个人，如果没有完整成熟且高度自动化的基础平台支撑各项业务，那么可以在那等死了

billwang

2021-09-27 08:32:10 +08:00

5w 台服务器，其实不用讨论答案，lz 你到有 5w 台服务器的机房看一看自己就会有答案了。光说数字真的感觉不出什么。

dream10201

2021-09-27 09:29:19 +08:00

每周挖一天

LuBenwei6p

2021-10-21 16:13:16 +08:00

别吹了真的吹有个度，如果都是矿机客户的机器你还管毛阿坏了就坏了,如果是公司自己的产品你一个人来给我维护 50000 台试试别说 50000 台 5000 台都是问题

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/803912

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.