Curiosity777
V2EX  ›  Java

小白请教服务性能与故障问题

  •  
  •   Curiosity777 · Sep 11, 2024 · 3222 views
    This topic created in 609 days ago, the information mentioned may be changed or developed.

    背景

    目前公司业务都使用 docker 部署,全部加起来 20 来个服务

    资源

    1. cpu64 核
    2. 内存 256g
    3. 硬盘几十个 T

    问题

    数据库服务 tdengine ,使用 rest 连接,近期这个服务一直挂,其他服务都没问题,之前 32 核 128g 的时候就挂,扩容到 64c256g 也挂,进容器里面看连接数,大概有 3000 来个

    请教一下,这种问题怎么排查,目前看物理机 cpu 负载 40%左右,业务最高峰是下午四点,很疑惑

    1. 64c256g 支持不了 3000 个连接同时读数据吗
    2. 如何定位到底是 cpu ,网络、还是内存的问题
    6 replies    2024-09-12 14:30:03 +08:00
    seers
        1
    seers  
       Sep 11, 2024 via iPhone
    上普罗米修斯监控啊
    piero66
        2
    piero66  
       Sep 11, 2024 via Android
    描述太模糊,不会就贴 log
    Int100
        3
    Int100  
       Sep 11, 2024
    tracing ,logging 和 monitoring 总要提供一个,大伙才好判断呀
    xuanbg
        4
    xuanbg  
       Sep 12, 2024
    同样 20 来个服务,我的资源是 8 核 16G ,硬盘空间更是只有可怜的 40G 。服务器目前平均 qps 约 20 ,峰值也有 100+,cpu 大约 4%,内存在 10G 上下。

    唯一和 OP 不同的是,我的数据库是独立的,服务是容器化的。所以,建议 OP 把数据库分出去或者装 docker 里面看一下。另外,硬盘几十个 T 是不是为了存储上传的文件?大文件上传没写对方法非常吃内存,值得重点关注。
    Curiosity777
        5
    Curiosity777  
    OP
       Sep 12, 2024
    @xuanbg 第一次崩以为是内存和 cpu 问题,cpu 负载 80 以上,内存 100g 空余 20g ,后来扩容后,还蹦,没有大文件,3000 个链接,平均每个链接读 1000 条数据这样,数据就是基础的时序数据
    Curiosity777
        6
    Curiosity777  
    OP
       Sep 12, 2024
    @xuanbg 主要是不理解,从系统资源看,没有达到瓶颈,仅 3000 连接服务就挂了,平均每个连接 1m 内存也是够的
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4478 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 70ms · UTC 10:07 · PVG 18:07 · LAX 03:07 · JFK 06:07
    ♥ Do have faith in what you're doing.