本人是 sre ,负责 k8s 和一些如 kafka zk 的中间件的运维,最近遇到了 3 个问题好久都没查出来。第一次是 3 节点 zk 集群夜间突然 1 台 cpu 拉到 100%几分钟后 cpu 掉下来了,但节点不可用,然后 2 个小时后另外一台又这样了,也挂了,然后集群不可用了。第二次是 6 节点 kafka 突然有一台 cpu 很高,重启没用,停掉后部分业务又开始报错,提高 cpu 配置(容器),并迁移了受影响的一个业务后启动后突然就一切正常,cpu 使用率也没那么高了,其他业务也没事了。第三个是 docker info 、docker images 突然 hang 住,几个小时自己恢复了,然后又开始反复。这几次中间件除了 zk 那个日志被清理了看不到当时报错,其他都没有什么报错,无从查起,很无力,领导 又要结果。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/1130523
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.