一次生产故障引发的一些思考与问题，请大大们帮忙分析

我们是公司的 K8s SRE 运维团队，近期发生了一次生产故障，一台机器上某 2 个 Pod 里面创建了很多线程，达到了宿主机的 pid_max 的阈值，机器上所有进程在某些达到阈值的时刻都无法创建新线程（ Pod 正常），导致了故障。
我们领导的想法是，他们线程创建过多了，并且是不应该创建这么多的（也得到了对方的认可），这是直接原因，我们设置 pid_max 较低（约 10 万），是间接原因。开会讨论我们要补齐相关告警，优化 pid_max 的配置，并从 kubelet 维度限制 Pod 的线程数。但是开发的领导说，这次是 pid_max 导致的，如果下次是别的内核参数不对出问题怎么办？我的领导说让我参考一下其他集群的相似的机器的内核参数（有多个生产集群，但是硬件配置，操作系统，内核，k8s 版本都不完全相同），修改出问题的机器的配置。
我部分赞同领导的想法，但是我也不能确保没出过问题的机器的内核参数配置就一定对，而且同步过来参数是不是一定适合这台机器，这也不好说。
我现在有疑虑的点就是，在我们的技术有限（运维经验都在 3 年以内），人力有限（ 3 个人运维 300 开发团队的应用）的条件下，如何能解决这种认知范围之外的问题（之前没有线程数监控，甚至排查的时候也花了较多时间才看到），因为操作系统实在是比较复杂，各类的内核参数、system service 配置等等实在是难以完全掌握，确实没有办法保证不会再出类似的问题。而且，为了控制成本，领导也不打算社招一些丰富经验的老运维去带带我们。

opengps

2024-07-04 16:50:43 +08:00

既然是能力之外的，那么这类故障有了这次也会有下次，只能减少不会杜绝。

你有的监控的参数再多，也架不住有你不懂得地方，所以能做的就是多参考市面上的监控指标，有什么抄什么，等自身能力到一定数值之后可能就是你有什么市面上抄你什么。

举个我的例子：当年我人肉运维时候，就怕服务器端 socket 死掉，所以就自己写了个检测端口能否连上的程序，一个放在局域网，一个放在公网，当时真的出现了光纤被挖断的事故，两个报警都有效但内网的显然发不出来，幸好有放在外网的这一份报警程序凌晨 3 点把我吵醒起来运维，一个电话打给联通到凌晨 4 点就反馈说给解决了。然后过了几年，我听到了脉脉故障的故事（只有内网的监控，以至于官方自己没有第一时间发现故障，反倒通过市场客户反馈得知故障）

xueling

2024-07-04 17:01:02 +08:00

这种容器服务，如果没有太多经验，不踩坑是不可能的。可以用我的开源项目： https://github.com/xl-xueling/xl-lighthouse 。网络上搜集所有可能导致宿主节点宕机/故障的配置参数，然后开发一些数据上报脚本，建立全方位的统计监控体系。我的项目可以任意创建自定义统计监控指标，实现任意维度的数据监控，使用非常灵活，统计监控方面的功能比 Prometheus 那一类工具要强大的多。

isno

2024-07-04 17:25:53 +08:00

如果下次是别的内核参数不对出问题怎么办？事实的做法是出了问题就修，没别的办法。

说点我的建议
1. 搞全链路测试、压测，提前找出问题。
2. 让开发也参与报警的设置，这次是线程数故障，下次如果是内存不够、带宽不够、业务接口不通呢？难道全你们设置
3. 买技术支持，参考 B 站大故障。。。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1054840