js8510
2021-09-26 02:22:40 +08:00
看你怎么定义 “运维”。。
我是 oncall 过比五万台更多的机器的服务。高度自动话以后。。其实 5 万还是 10 万台机器,差距不大。manual operations 也不是很多。。甚至有>50%的时间写代码,开会什么的。更多的就是:
- 工作时间 alert 都看一看。
- 非工作时间 高 priority 的 alerts 看一看。低的直接忽略。
- 出事了有各种 data set, logging 。 有经验的话很快就能找到问题大致方向。熟悉了(因为出了 SEV 都要 review 的)也能知道大致会经常遇到的问题。
- 搞不定就把别的 oncall 拉起来。怀疑 downstream 拉 downstream .怀疑是谁的 change 就把谁叫起来问。纯粹需要帮助也可以拉别人起来。
- oncall 结束以后总结一下,noisy alerts 想办法调一调。有些简单的问题想一想能不能搞个 auto remediation(比如有些情况明显是 auto-scale 有问题,那就在这种条件下让他自己关了 and scale to max size 等第二天上班时间再解决。这样你非工作时间就不用搞这些了。。还有比如某些 feature 还不问题也不中要,那你监控到它挂了直接给他关了然后把 alert forward 给 onwer 等天亮了再说 等等等).
所以我觉得是需要点经验的事情。。但是多数时间一个人搞的定的。当然偶尔也有倒霉的时候。