生产环境故障该不该追责员工

2019-06-20 14:21:18 +08:00
 Sothoth

在 SRE 的世界里,有个概念叫做“事后无过失”( blameless postmortem ),这是一种回顾过去所犯错误的方式,但不会将责任归咎于任何人。在谷歌工作了近 5 年的隐私工程师塔里克·尤素福(Tariq Yusuf)表示:“这是谷歌文化的一个基本组成部分,也是让人能够大胆剖析出问题的能力。但报复消除了能够安全提出问题的核心阻碍,整个过程因此而崩溃。”

———— https://www.cnbeta.com/articles/tech/859031.htm 谷歌"内战":高管要利润,员工要价值观,谁是灵魂?

大部分公司应该都会追责吧 即使没有相关处罚 各种潜在影响(绩效 KPI...)也是避免不了吧 想听听大佬们的意见 也想了解下大厂的处理方式

12686 次点击
所在节点    程序员
90 条回复
FrankHB
2019-06-20 20:29:18 +08:00
先追事前没有想起约定导致居然会要在事后扯皮的问题的法务和监管部门的责。
fxxkgw
2019-06-20 20:46:59 +08:00
我所在也算大厂了。。一般会开故障分析会,确定责任所属部门和整改措施,并有专人跟踪整改情况。

至于会不会影响个人,明确说会的,上个季度就有组里同事因为故障,绩效给 1 以下。( 1 是正常)

我这个月因为自己系统 bug (纯代码 bug,复现概率十万分之一,大并发压测才会出现),造成了实际公司资损。

会不会影响绩效就看 Q3 结果了。
russian
2019-06-20 20:50:15 +08:00
@jacketma 谷歌里的很多人就是科学家
DAPTX4869
2019-06-20 21:00:59 +08:00
@Myprincess #40 10%也是两万了...那员工接受了?
Myprincess
2019-06-20 21:46:35 +08:00
@DAPTX4869
方案 A 与 B 与 C 都无法执行,因为一旦执行,管理会出现巨大的抵制行为.更多的扯皮.D 与 E,因为不选择 E 是因为综合考虑,如果老板承担了大头,而后期扣除一年的绩效,这个决定对那些没有犯错的人来说是非常不公平的.选择 D 是因数没有扣除后期的绩效.但是那个员工肯定是要担责的,因为是正式员工,而为什么剩下的 30%由老板承担是因为老板是有承受能力的.老板说这是一个公司就是一个团队,一人犯错其他部门都必须一起承担.
那 10%员工是接受的.因为是他个人原因造成的.部门管理也有责任.那公司高层肯定也有责任.所以统统要为这个事件埋单.
Myprincess
2019-06-20 21:50:23 +08:00
@DAPTX4869 补充一下:我们之前是用 OA 来管理的,在线审批的.这个事件后,我们选择关联部门负责人都要签字确认后才放行流程.不然所有的生产任务无法安排.必须见到相关人员的签字.而不是之前的点击同意就 OK 了.
huson
2019-06-20 22:03:54 +08:00
之前再阿里系得公司。。。因为人为故障 电商官网 生产环境注册 挂了 1 小时

重点分析了故障原因 为什么会产生 那些人得该做得没做 或者是选择错了
开会一起分享 吸取教训

然后主要相关领导都扣了钱
责任员工 吸取教训 一分钱没有要扣- -
luckylo
2019-06-20 22:05:07 +08:00
对于你们这些追责的,我司前两天被客户恶意搞了,但那个功能是前面的人做的。那些人均已离职。在发现被搞之前,那安全问题一直存在,出现问题后,我定位查出问题了,如果要追责,这锅我背?还是所有人的包括测试?测试也换成新人了😂
lplusk
2019-06-20 22:05:13 +08:00
大厂 SRE 路过。
没有合理的流程和工具把错误变更的影响面成功限制住小范围,是流程和工具的问题。
有这样流程和工具你却不用(别奇怪,真的有不少人这么干),线上变更一把梭,背锅的就是你了。
lplusk
2019-06-20 22:08:28 +08:00
@Sornets 合格的技术线管理者这时候应该挺身而出保护自己底下犯错的员工。幸运的是我就遇过这样的领导。
Takamine
2019-06-20 23:36:14 +08:00
影响绩效评级算不算。_(:з」∠)_
lijbgo
2019-06-20 23:40:46 +08:00
出错当然要罚,要不不长记性。但是有个前提是要先实现多劳多得。而且罚多少、以什么方式罚都是有讲究的。
leishi1313
2019-06-21 01:52:15 +08:00
Google 内部确实这样的,我自己看来原因主要有几点:
0.追责不了,动不动几个 M 的损失怎么担。。
1.公司钱多,可以不计成本鼓励员工试错,创新,所有事故都要追责那大家都会保守了。
2.公司大,几乎每天都有事故。内部有个追踪生产事故的网站,所有人都可以登录查看解决的进度,粗略看了下光今年( 2019 )损失超过$5M 的事故就有 16 个,都要追责的话人心惶惶,毕竟一行代码影响的都是百万千万甚至几亿人。
3.说是 blameless,但是每个事故都很透明,基本都能追踪到具体哪个 commit 出了错,公司所有人都能知道谁是代码作者,谁是 reviewer,犯了错大家以后再小心点咯,出了错长记性就好了。

所以其实不必盲目地向大公司看齐,很多文化固然有值得学习的地方,但是各个公司情况都不一样。
从我自己角度也有相关的小故事,曾经在一个比特币交易所的矿池部门带过,由于 github 密码弱,矿池代码被我泄露出去了,被黑客索要几百万,最后公司对我保护很好,除了安全部门和主管没什么人知道,最后也没对我追责:)。然后因为是加密货币领域,公司对安全的重视度特别高,你想想公司托管的币没了整个公司就没了,这种事故还没发生过,但是一旦发生,追责又有什么用呢
testeststs
2019-06-21 06:07:32 +08:00
这个世界上最愚蠢的问题就是尝试寻找一种银弹的方式解决现实中的所有问题。
你说,杀人要不要偿命?
自卫杀人?被胁迫杀人?报仇雪恨?
现实世界可比理想世界复杂的多,要是杀人该不该偿命,仅仅用一两句话就可以概括,也就不需要那么厚的律法了。

给你一个忠告,不要尝试用程序员的眼光去看待现实世界。
Yvette
2019-06-21 07:23:59 +08:00
blameless postmortem 翻译成「免追责事故分析」是不是更合理,「事后无过失」这个翻译实在是莫名其妙
kerassss
2019-06-21 08:27:16 +08:00
@ulyssesfeng 同感,回溯到头皮发麻。
vanityfairn
2019-06-21 09:00:07 +08:00
先解决生产问题,然后开小复盘,再开大复盘(整个技术部),给事故定级,P3 以上的,事后直接不让干了
jorneyr
2019-06-21 09:12:29 +08:00
难道第一时间不是搅浑水,找背锅的?
star00
2019-06-21 09:17:39 +08:00
不应该处分发现问题的人吗 txtx
Youngxj
2019-06-21 09:30:49 +08:00
我新到一家公司任职,不懂整个框架的运行,拆东墙补西墙的修改了一个参数,第二天被反馈造成了一定损失,需要赔偿,但是我们老板并没有责怪我什么,我立马恢复了之前的修改。可能是造成的损失不大吧,要不然肯定把我开了,如果公司要求赔偿我觉得应该签署有效合同才能追责赔偿,要不然员工大不了走人就行了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/575828

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX