最近遇到了 3 次非常难查的问题,很无助

122 天前
 zhoudaiyu
本人是 sre ,负责 k8s 和一些如 kafka zk 的中间件的运维,最近遇到了 3 个问题好久都没查出来。第一次是 3 节点 zk 集群夜间突然 1 台 cpu 拉到 100%几分钟后 cpu 掉下来了,但节点不可用,然后 2 个小时后另外一台又这样了,也挂了,然后集群不可用了。第二次是 6 节点 kafka 突然有一台 cpu 很高,重启没用,停掉后部分业务又开始报错,提高 cpu 配置(容器),并迁移了受影响的一个业务后启动后突然就一切正常,cpu 使用率也没那么高了,其他业务也没事了。第三个是 docker info 、docker images 突然 hang 住,几个小时自己恢复了,然后又开始反复。这几次中间件除了 zk 那个日志被清理了看不到当时报错,其他都没有什么报错,无从查起,很无力,领导 又要结果。
3447 次点击
所在节点    程序员
26 条回复
zhoudaiyu
121 天前
@sjkdsfkkfd #20 也有 4.19 的几台,但是没出这些幺蛾子
Liv1Dad
121 天前
@clocean #10 都是搬砖,也没啥难不难的。
hellolinuxer
121 天前
这也叫 sre 吗
feedcode
121 天前
kafka JVM 的 thread stack, heap dump 有吗?
dockerd 的 stack, trace 有吗?
没有的话只能靠猜
zhoudaiyu
120 天前
@hellolinuxer 那您理解啥叫 SRE ?
zhoudaiyu
120 天前
@feedcode docker strace 了一下,发现是一直在扫镜像 imagedb/sha256 中的文件,都是小文件所以慢 kafka 没打 dump 和 jstack 😂

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1130523

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX