一个运维可以管理 5 万台服务器吗?怎么管?

2021-09-24 14:18:41 +08:00
 dante6733

理性讨论,如果有 5 万台服务器,虚拟机和物理机都行,一个人能管好吗?如果一个人管不好,那怎么管?

有没有大佬有这么多台服务器的管理经验?也希望能够分享一下经验,改进大家的运维效率。

14686 次点击
所在节点    Linux
112 条回复
liuxu
2021-09-25 13:12:02 +08:00
既然 100 条了,那我翻个页
wangyzj
2021-09-25 13:48:01 +08:00
假设每天坏一块硬盘
yidingz
2021-09-25 14:13:14 +08:00
这么说吧,一台机器的寿命是三年算 1000 天,就算这五万台机器都是能运行三年不出错不坏,轮流着换。平均每天要下线 50 台机器,上线五十台。

一个人,就每天拔两个机架 50 台机器的网线电线,拉出来,装 50 台新机器进去,插线,(假设系统都是自动 provisioning ),嗯我估计够呛。就给你 50 台 1U 的机器让你拉去仓库,你就累残了。

实际机器跑个一年半载的可能就要维护,实际每天硬件维护超过 100 台机器,嗯 996 估计是不行,007 都扛不住。
gvhao001
2021-09-25 19:25:19 +08:00
管理?什么叫管理!开机关机算不?保持清洁算不?
js8510
2021-09-26 02:22:40 +08:00
看你怎么定义 “运维”。。
我是 oncall 过比五万台更多的机器的服务。高度自动话以后。。其实 5 万还是 10 万台机器,差距不大。manual operations 也不是很多。。甚至有>50%的时间写代码,开会什么的。更多的就是:
- 工作时间 alert 都看一看。
- 非工作时间 高 priority 的 alerts 看一看。低的直接忽略。
- 出事了有各种 data set, logging 。 有经验的话很快就能找到问题大致方向。熟悉了(因为出了 SEV 都要 review 的)也能知道大致会经常遇到的问题。
- 搞不定就把别的 oncall 拉起来。怀疑 downstream 拉 downstream .怀疑是谁的 change 就把谁叫起来问。纯粹需要帮助也可以拉别人起来。
- oncall 结束以后总结一下,noisy alerts 想办法调一调。有些简单的问题想一想能不能搞个 auto remediation(比如有些情况明显是 auto-scale 有问题,那就在这种条件下让他自己关了 and scale to max size 等第二天上班时间再解决。这样你非工作时间就不用搞这些了。。还有比如某些 feature 还不问题也不中要,那你监控到它挂了直接给他关了然后把 alert forward 给 onwer 等天亮了再说 等等等).

所以我觉得是需要点经验的事情。。但是多数时间一个人搞的定的。当然偶尔也有倒霉的时候。
guo4224
2021-09-26 12:00:45 +08:00
5 台和 5 万台没区别吧
flyingghost
2021-09-26 12:09:11 +08:00
老板:公司成立起来了,广告也打出去了,客户也忽悠到了。现在就差开工干活了。
小王,公司现在已经有 5w 台服务器了,你得出个方案,负责管好。
小王:我才刚入职就我一个运维怎么管 5w 台?唔。。。先上 V2 求个方案吧。
xingtian
2021-09-26 12:38:48 +08:00
5 万台运维我不知道,但是我现在一个人管理 10 万台终端跟服务器的网络安全跟中毒的问题,还能成天摸鱼
jsion
2021-09-26 15:02:30 +08:00
真搞笑,一个运维连传话筒都做不了,每天审批工单就够整活了,别说在庞大机群规模底下做运维。感觉就是打广告拿需求的。
你们充其量也就一个做监控平台的,难道也想把整个 IaaS 所有管理层面的工作都给抹平了,你真给想屁吃,先追齐深信服的云解决方案再说吧,最多就上层运维平台的一个子系统,各种虚拟化计算、存储、网络管理、流程引擎、服务编排、迁移和灾难恢复、计费治理等基础资源纳管能力都没有,谈什么服务器管理,真就当服务器管理就开关机 /遇障重启呗
而想要靠一个平台系统来解决这些问题几乎是不可能的,功能能齐备就很不容易了,更何况各公司架构和技术栈千奇百态,光采购适配就有的搞,一般大点公司都是自研的,外采管理压根就不用想,出了问题都是自己的命,哪敢交给别人
一个人,如果没有完整成熟且高度自动化的基础平台支撑各项业务,那么可以在那等死了
billwang
2021-09-27 08:32:10 +08:00
5w 台服务器,其实不用讨论答案,lz 你到有 5w 台服务器的机房看一看自己就会有答案了。光说数字真的感觉不出什么。
dream10201
2021-09-27 09:29:19 +08:00
每周挖一天
LuBenwei6p
2021-10-21 16:13:16 +08:00
别吹了真的 吹有个度,如果都是矿机 客户的机器 你还管毛阿坏了就坏了,如果是公司自己的产品 你一个人来给我维护 50000 台试试 别说 50000 台 5000 台都是问题

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/803912

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX