每次 OnCall 过后都掉一层皮

2022-03-19 13:30:47 +08:00
 111qqz

组里人少,每过一个半月就要 OnCall 一周。一年 OnCall 7-8 次,也就是将近两个月的时间在 OnCall.

每天基本早上十点到晚上十一点,在查一个问题的时候又有其他问题出现。很多都是线上问题,非常紧急。 问题不响应或者每过 12 小时没有解决,就告警电话一直打。

OnCall 5 天之后,基本得睡个 12+个小时整个人才缓过来。 早上醒来又全是没有接到的告警电话

下周估计也要花几天解决这周遗留的问题。

有木有做 SRE 的大佬,想问问这种高强度的 OnCall 是如何调节身体和精神压力的? 如何做到同时处理七八个问题,做到快速的 context switch 的?

7909 次点击
所在节点    程序员
59 条回复
Biggoldfish
2022-03-19 16:22:44 +08:00
@111qqz 翻出多年不用的 QQ 私聊了哈哈
ryd994
2022-03-19 16:27:48 +08:00
@111qqz 1. 这不应该 oncall 做。邮件沟通转给对应组员即可

2.那就更应该安排专人负责。或者设计一套自动修整系统,解决一些小问题。

3. 那也分紧急不紧急。能用两天时间就说明没那么经济。oncall 第一任务是生产环境的 outage ,其次才是失败率。失败率剩下的不还是可用率嘛。真要是重要的问题,那也是老板负责,你有什么压力。

4. 那也是需要另外安排人做。我们组这种事情都是转给 pm 去解决的。因为 dev 控制不了用户爱怎么用。pm 却很需要了解用户需要什么功能。让 dev 做这个非常没效率。如果老板认识不到他的 dev 在干 support 和 pm 的活,那说明老板的工作没有做好。

5. 这就更是老板和 pm 的锅了啊。和其他组件如何交接,这是最初立项时就要商量好的事情。
缺 log ,缺工具,导致 Dev 浪费时间在 oncall 上,那就应该开发工具,保证下次遇到同类问题可以快速定位和控制影响。如果你有类似的想法,应该及时和老板反馈,商量如何解决同类问题。你看,visibility 这不就来了嘛。

oncall 的任务不是彻底解决问题,而是定位问题和恢复服务。这考的是产品整体架构,不是单人的技术水平。如果你们出了大事还没法恢复,你老板就完蛋了。

6. 和下游用户对接,这就是 tpm 的工作……

总之,oncall 事多是正常的,但是你没必要有压力。尽力而为就行了。
OliveGlaze
2022-03-19 16:36:00 +08:00
学好英文早点润了。

看了 OP 的博客,感觉刷了那么多题最后干的活和民工似的,有点为楼主感到惋惜,在腾讯算法岗干了这么久早点去另谋高就吧。
yzbythesea
2022-03-19 16:51:35 +08:00
同做 infra ,7x24 oncall ,大概 7 天中有 3 ,4 天晚上要被 page 叫醒,一周大概 60 个 page 。

结束了休一天假;有一个 secondary 来处理不紧急的事;遇上复杂的及时找组里懂的人帮忙
ZSeptember
2022-03-19 16:59:05 +08:00
所以,到底为什么这么多问题。
如果是业务方的问题,为什么是你 on call 。
业务方为什么会写出那么多问题
111qqz
2022-03-19 17:28:00 +08:00
@ryd994 #22 老哥说的都非常有道理。 我老板还是靠谱的,也在想办法解决。 但是一个是人力原因,一个是技术债实在太多了,公司各种古老的技术架构也在慢慢更新。 我尽力而为吧
111qqz
2022-03-19 17:28:44 +08:00
@OliveGlaze #23 如果是做 infra,哪里都逃不过 oncall 的,国外也一样😂
111qqz
2022-03-19 17:35:13 +08:00
@ZSeptember #25 1. 技术债太多了。
2. 业务方不知道是自己的问题呀,我们是调用链的下游。
3. 我觉得主要是业务招人完全不考察这方面,基本只看发了什么 paper, 所以很多业务是基本不会写代码的,问题就特别多了。
xmumiffy
2022-03-19 18:02:46 +08:00
我还以为你这 on call 是正班下班后再来个 12 小时,结果是每天工作 12 小时么 那和正常上班也没什么差别吧
wa007
2022-03-19 18:46:46 +08:00
@111qqz 模型上线失败、请求出错。
服务这么不稳定的么
wangshushu
2022-03-19 19:23:03 +08:00
字节?
patrickyoung
2022-03-19 19:57:06 +08:00
@111qqz #14 流程 系统 Wiki 分布 用户引导都有问题。我是做 DFIR 的乙方,24h oncall 都是正常的,但是几乎很少遇到这样的情况,一年到头就一两次。
OliveGlaze
2022-03-19 20:15:33 +08:00
@111qqz 是,但润走之后继续做 infra 的话,起码「每天基本早上十点到晚上十一点」出现的概率比你现在小很多了[看戏]
msg7086
2022-03-19 20:20:23 +08:00
12x7 ,一个月轮到一次,精神(闹钟)压力大不过我们单子少,很多和我们无关但是转给我们的单子会有别人走 run book wiki 带掉,只有少数会掉到我们头上,所以我感觉还行,扛过去就好。不过组里也有个小哥觉得受不了的,下周一直接请假休息一天。
YaakovZiv
2022-03-19 20:32:29 +08:00
我在华为外包工作过,华为是三个 8 小时都有人,主备那种。研发有主备两个人。每个运维都会有专用问题手册,现场按照手册排查一遍就能解决超过 70%的问题,剩下 30%奇怪的问题,远程热线也能一小时内处理完。如果是十分紧急问题,会单独拉作战室。
同时处理多个问题,第一个问题处理到 30%时,需要等待进程或者其他人员介入。第二个问题接入,开始处理第二个问题。从第一个问题接入开始,就做详细记录,会有严格的表格要求记录的信息,随时换人上都能接手处理,不至于换个人就要重新了解一遍问题。
tuding
2022-03-19 21:41:27 +08:00
7x24 oncall 时间久了身体会拖垮
461da73c
2022-03-19 21:51:45 +08:00
每周 200 多 case 的系统还能上线?
是没有测试吗,要求也太低了,报一下公司,避免踩坑,lz 还是尽快跑路吧。
AltairT
2022-03-19 22:00:38 +08:00
@infinityv 电脑不可能随时在身边啊,难道配了那种带 SIM 卡的迷你 PC?
NCZkevin
2022-03-19 23:21:24 +08:00
社科的同学?最惨的是做框架的组,看见他们的 oncall 强度都害怕,每天群里各种乱七八糟的问题。想优化 oncall 只能逼着研发尽量自己去解决问题,别有事没事就来找 oncall,特别是很多共性的问题,一定要写好文档,放在群公告里。
Lonenso
2022-03-20 00:45:57 +08:00
推荐阅读 凤凰项目

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/841452

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX