运维平时工作到底是需要小心一些,还是要大胆主动一些?

91 天前
 zhoudaiyu
之前我是比较主动的,针对于已经发生的问题,甚至是隐患,都会主动想办法解决,避免更大的故障。但是最近由于生产迁移 kafka 时,对 kafka 的客户端基础包不了解,以及对业务方使用上不了解(虽然已经对操作进行了评估),导致了 2 次故障。事后想其实不迁移也不是不行,并没有非常明显的证据表明非迁移不可(唯一风险可能就是集群的每台机器 CPU 使用率都在 90%以上)。这两次故障对我的技术上和对于运维的认识有一些冲击,我不再想主动解决问题了,而是更倾向于生产系统能不动就千万别动,真的迫不得已或者故障已经发生再去处理吧。因为系统确实越来越复杂,个人、甚至叫上了各方负责人也不一定能评估出风险,还不如先不动。
2923 次点击
所在节点    职场话题
35 条回复
zhoudaiyu
90 天前
@Tumblr
@brom111
@8355
@whp1473
@hawhaw 我是提了建议,但是领导让我牵头,但是出了问题领导躲在后面不承担,锅扣我头上了,我也只是不想发展到集群真的问题了,那样过于被动
8355
90 天前
@zhoudaiyu 如果你领导是这种人的话,以后说话记得留证据,文本聊 不要线下聊了。
zhlxsh
90 天前
年轻大胆一点,不气盛叫什么年轻人。等年纪大了,碰到坑多了自己就学会小心了。
uncat
90 天前
在虚拟化构建虚拟的集群
ansible/saltstack 写代码
code review/虚拟集群内走一遍
基本上后面也不会有太大的风险
defunct9
90 天前
这个跟个人性格有关。我是绝对主动,看着不顺眼就改掉。但是前提是你要能 hold 住整个过程中的意外。
为了取回一个最高权限等了 3 个月才动手。
GT1
90 天前
最近看到一句玩笑话,灰电平衡
Firxiao
89 天前
“不做不错” 这种想法任何行业都是一样的 说白了就是懒政
年轻的时候不要老想着这个锅是谁背了
敢做敢当 让你牵头 你就得付出该有的责任 无论领导好坏,先从自己身上找问题,是不是评估不到位?测试环境测试了吗? 哪里疏忽了?
换个角度 现在利用率已经百分之 90 了 难道等出问题了 你再和领导解释 没发现这个问题? 到时候是不是更被动?
做运维不要害怕出错 而是出错之后 想办法找原因 积累各种故障/潜在问题的处理经验
流程文档什么的就不赘述了
愿你一觉醒来仍是少年
NewYear
89 天前
不破不立……
julyclyde
88 天前
情绪,是一个和技术水平同等重要的要素

你如果还想长期干下去的话,那各种隐患的解决工作早晚还是你的,躲也躲不掉
可以从长计议,短期内不要给未来挖坑,甚至可以推进逐步演进的改善;长期要提前培养好自己的技术水平、寻找合适的做大规模变更的时机
franktopplus
88 天前
敬畏墨菲定律,所有的大故障都是小隐患积累的
bclerdx
87 天前
@Bateman 人非圣贤孰能无过?
luhuisicnu
87 天前
有隐患可以提风险,让领导决定是否整改。
多做演练,步骤做仔细,大家一起评估。
这一套搞下来耗时不少,但是应该能解决问题。如果 kpi 与此无关,建议不要管。
Felz33
87 天前
我最近正好也要迁移 Kafka ,有什么坑可以分享一下吗?
pepesii
87 天前
能不动就不动
kindlingx
78 天前
@zhoudaiyu 最近团队在做相关的工具,楼主的问题基本就是我们特别想要解决的一类问题之一,还有就是想试试不知道除了 AIOps 之外,是不是有可行的路能够帮助运维、开发,不至于天天被动还加班。楼主有兴趣的话不知能否简单聊聊?想了解了解平时工作中的一些困境。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1019559

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX