最近遇到了 3 次非常难查的问题,很无助

119 天前
 zhoudaiyu
本人是 sre ,负责 k8s 和一些如 kafka zk 的中间件的运维,最近遇到了 3 个问题好久都没查出来。第一次是 3 节点 zk 集群夜间突然 1 台 cpu 拉到 100%几分钟后 cpu 掉下来了,但节点不可用,然后 2 个小时后另外一台又这样了,也挂了,然后集群不可用了。第二次是 6 节点 kafka 突然有一台 cpu 很高,重启没用,停掉后部分业务又开始报错,提高 cpu 配置(容器),并迁移了受影响的一个业务后启动后突然就一切正常,cpu 使用率也没那么高了,其他业务也没事了。第三个是 docker info 、docker images 突然 hang 住,几个小时自己恢复了,然后又开始反复。这几次中间件除了 zk 那个日志被清理了看不到当时报错,其他都没有什么报错,无从查起,很无力,领导 又要结果。
3444 次点击
所在节点    程序员
26 条回复
F281M6Dh8DXpD1g2
119 天前
gc log 都不看的话确实没啥结果
zhoudaiyu
119 天前
@liprais 这准备加呢,之前确实有的集群没有,有的有,这次赶上的都没有
seers
119 天前
有点像是磁盘 io 出问题了,建议这个方向看看
ronen
119 天前
接着 #3 问,你们的基础设施是自建的,还是云上的, op 能力或人力不足的时候,就拆一部分到云厂商去,规避一个人要同时关注过长技术链条。
zhoudaiyu
119 天前
@ronen 是自建的,用的是上级集团的自建机房,找他们他们查过,永远一句话,一切正常
zhoudaiyu
119 天前
@seers 您说的是 Kafka 吧?从监控看 io ok 的,用的是 nvme 的固态,响应时间一直比较快
tomatocici2333
118 天前
给领导说你排查下来没什么问题,需要上级机房一起排查看看能不能让领导协助一下
zhoudaiyu
118 天前
@tomatocici2333 #7 机房就一句话,一切 OK ,要么就是坏了才告诉我们(其实之前就知道了,就故意不告)
Liv1Dad
118 天前
转开发吧,已经我也是运维,遇到问题天天脑带大, 还要 7*24 。现在开发,天天摸鱼。运维,狗都不干
clocean
118 天前
@Liv1Dad 难转吗
zhoudaiyu
118 天前
@Liv1Dad #9 我之前确实是运维开发(告警平台、中间件运维平台这些),但是近两年部门有变动,我就变运维了,开发倒是也可以搞
jellysheep
118 天前
负载高吗
tomatocici2333
118 天前
@zhoudaiyu #8 这种情况下你就要告诉 +1 了,让他去拉上开发还有机房一起去查。责任面扩大一下
defunct9
118 天前
开 ssh ,让我上去看看
Huelse
118 天前
99%是硬盘问题,固态硬盘故障有时就是玄学,可以往这方面排查下
SmiteChow
118 天前
可能是网卡问题,这也是为什么我推荐拉取信息而不是推送信息做监测的原因,有时候网卡能发不能收,有时候能收不能发。
edisonwong
118 天前
atop 或者 sar 监控
sjkdsfkkfd
118 天前
整点 bpf 啥的?学好了还能跳个槽
zhoudaiyu
118 天前
@Huelse #15 是集中式存储( ZK ),估计是 HDD ,然后 Kafka 用的是 nvme 的 ssd ,从 dmseg 、带外、监控看都正常,docker 这个机械盘反正确实性能比较差,但是 30 多台机器就只有 3 台这样

@edisonwong #17 sar 每次抓数据间隔时间太长了

@SmiteChow #16 网卡也是正常的

@sjkdsfkkfd #18 内核太好了 2.6 和 3.10 的😂
@defunct9 #14 这给我开监狱去了
sjkdsfkkfd
118 天前
> 内核太好了 2.6 和 3.10 的

啊这,那确实很无力了😐

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1130523

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX