关于 load average 一个诡异的问题

2019-11-25 17:33:15 +08:00
 z5864703
先说现象,服务器每隔一小时 22 分 load 负载就会从平均 0.6 飙升到 5-7 之间,持续两分钟就回落正常水平,并且偶尔会有三四个小时不出现。诡异的地方是没找到能体现负载上升的关联数据指标,就是检查了所知道的数据都是正常的没有波动,除了 load 负载。
服务器环境(阿里云的 ECS,C6 型):
系统:centos 7.6.1810
CPU:8 核 intel 的 8269CY
内存:16G,没有开 swap
磁盘:高效云盘 40G
网卡:1 张自带+2 张弹性网卡(公网 IP )
程序:php7.2.24+swoole4.4.12
业务:差不多维持四十万左右的 TCP 长连接,平常主要数据交互就是心跳指令数据收发

负载飙升的时候,检查监控记录过以下数据指标,并和正常情况下的指标对比,并无异常。
cpu 占用率:10%左右波动
内存占用:7G 左右平稳( 16G 的总内存)
磁盘 IO:几乎没有,因为业务是数据转发性质,纯内存
处于 R 状态进程:1-5 之间波动
处于 D 状态进程:没有
系统中断:四万七左右波动(通过 vmstat -Sm 1 查看)
上下文切换:五万左右波动(通过 vmstat -Sm 1 查看)
系统函数调用:排名前三 kernel 的_raw_spin_unlock_irqrestore、__do_softirq 与 php 的 execute_ex 保持不变(通过 perf top 查看)
网络流量:维持出 4Mbps 左右,入 7Mbps 左右
网络连接数:无波动

目前可以肯定和业务程序相关,只要业务程序关闭,就不会出现这个现象。但是检查过业务代码,没有符合特征的代码,比如定时器。
目前就是要找到会是什么原因导致的 load 飙升,有没有哪路神仙遇到此问题,或能提供定位问题思路。
1993 次点击
所在节点    程序员
11 条回复
z5864703
2019-11-25 17:36:25 +08:00
补充:
1.只要连接数上来就会出现,所以问题和长连接数量相关
2.心跳是 60 秒一次,回应 pong 即可,处理效率不存在瓶颈
jybox
2019-11-25 17:38:50 +08:00
监控采集的粒度不够?有可能只是极短时间的 CPU 繁忙导致的 load 升高。
asilin
2019-11-25 17:43:23 +08:00
我猜测是短时间内大量进程 /线程的创建导致的,推荐使用 ganglia 或者 prometheus 监控来看下;
z5864703
2019-11-25 18:00:51 +08:00
@jybox 每秒记录,load 的数值飙升到回落持续时间两分钟,飙升过程 40 秒左右。cpu 没有波动,包括每个核心
z5864703
2019-11-25 18:04:15 +08:00
@asilin 业务在启动完就创建完相关进程和线程,运行过程中不会有这个操作
Sasasu
2019-11-25 19:19:16 +08:00
gc 扫描
z5864703
2019-11-25 19:59:29 +08:00
@Sasasu php 的 gc ?还是?
dazhangpan
2019-11-25 20:04:23 +08:00
同意#3 楼,不要光看代码,还是得用工具看一下是否有 short-lived 进程,可以参考这篇文章: https://decodezp.github.io/2019/09/19/test20-troubleshoot-short-lived-process/
z5864703
2019-11-25 20:19:53 +08:00
@dazhangpan 看了下,不符合条件。服务器在负载飙升的时候是没有 cpu 占用开销
capljf
2019-11-26 13:43:07 +08:00
如果确定是业务代码造成的 load 飙升并且是运行 jvm 的话,可以在 load 升起来的时候 dump 一下内存看看
z5864703
2019-11-26 14:58:33 +08:00
@capljf 不是 jvm,是 php 环境

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/622991

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX