V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
rjagge
V2EX  ›  问与答

跑模型的 server 很卡,但是判断不出问题的原因所在,有没有运维相关的老哥有偿看看?

  •  
  •   rjagge · Feb 12, 2023 · 2233 views
    This topic created in 1172 days ago, the information mentioned may be changed or developed.

    如题,这个问题困扰了我很多天了,vscode 和 terminal 都能感知到明显的延迟。 基于知识付费的原则,小弟为您的知识付费,只为了解决小弟的困惑 wx: cmphZ2dl

    25 replies    2023-02-15 15:14:28 +08:00
    xiri
        1
    xiri  
       Feb 12, 2023 via Android
    你这 CPU 占用 user time + system time 都 100%了,还问为什么卡,,,
    BanShe
        2
    BanShe  
       Feb 12, 2023
    27.7us ,72.3sy ,😂
    echoless
        3
    echoless  
       Feb 12, 2023 via Android
    你用 htop 会更明显
    des
        4
    des  
       Feb 12, 2023
    load 都 643 了你还问为什么卡
    imydou
        5
    imydou  
       Feb 12, 2023
    sy=剩余 🙈
    hsfzxjy
        6
    hsfzxjy  
       Feb 12, 2023 via Android
    几个核啊能这么跑
    rjagge
        7
    rjagge  
    OP
       Feb 12, 2023
    @imydou 笑死了,我一直以为 us 是 usage 的缩写,然后 sy 想必就是剩余了....
    rjagge
        8
    rjagge  
    OP
       Feb 12, 2023
    @hsfzxjy 有两块 Intel(R) Xeon(R) Gold 5215 CPU @ 2.50GHz
    rjagge
        9
    rjagge  
    OP
       Feb 12, 2023
    @wuhaoecho 不是 root 没有权限....
    rjagge
        10
    rjagge  
    OP
       Feb 12, 2023
    @xiri 了解了一下,是我无知了把 us 当作占用率...
    rjagge
        11
    rjagge  
    OP
       Feb 12, 2023
    @des 了解了一下 load ,发现问题很严重..............
    rjagge
        12
    rjagge  
    OP
       Feb 12, 2023
    @BanShe
    @xiri

    我看了一下 sy 过高是不是有问题啊大哥们
    idblife
        13
    idblife  
       Feb 12, 2023
    能放开 ssh 给网上的陌生人看一下吗?
    deorth
        14
    deorth  
       Feb 12, 2023 via Android
    把跑模型的进程加点负的 nice 就不卡了
    rjagge
        15
    rjagge  
    OP
       Feb 12, 2023
    @deorth 不是 root 。。。。nice 不了,有什么其他办法吗。。。
    des
        16
    des  
       Feb 12, 2023
    @rjagge 你这问题很多,首先 24users 是什么情况,然后 load 都六百多了,cpu 的 sys 到 72%也不正常,以及 72 个 zombie 也不正常。不知道你这太机器多少核心,跑这么多进程都是 RUNNING 状态
    des
        17
    des  
       Feb 12, 2023
    @rjagge 没啥好办法,就是跑的程序太多太卡了
    ETiV
        18
    ETiV  
       Feb 12, 2023 via iPhone
    装 docker 了没,你能用 docker ps 吗?
    ryd994
        19
    ryd994  
       Feb 12, 2023 via Android
    1. 不是 root 也能 nice ,但是只能从默认的 10 往上加。nice 越高优先级越低。root 可以减 nice ,也就是比默认更高。
    2. 你跑模型的程序需要调并行度。并行度太高、开太多进程只会更慢,因为增加了调度开销。基本原则是线程数等于 CPU 核心数(包括超线程)。一点往上加,刚好能稳定占满 CPU 就不必再加了。
    ETiV
        20
    ETiV  
       Feb 12, 2023 via iPhone
    (如果装了 docker 、并且你当前用户可以用 docker ,你就能把自己变成 root )
    muzuiget
        21
    muzuiget  
       Feb 12, 2023
    内存不足,SWAP 用满了,频繁虚拟内存切换。
    blackeeper
        22
    blackeeper  
       Feb 12, 2023
    你这个有几个问题:
    1 ,cpu 负载很高
    2 ,内存也有时候不足,SWAP 都用了一部分
    3 ,程序也有问题,有很多 zombie
    总结一下:是用户 user13 运行了命令 R 语言在跑模型,大概有四十多个进程,cpu 占用率非常大,基本全是他在占用,
    需要限制一下多用户使用系统资源,做一下任务队列
    kkkbbb
        23
    kkkbbb  
       Feb 13, 2023
    @xiri 你们能看到图片还是?
    kkkbbb
        24
    kkkbbb  
       Feb 13, 2023
    @kkkbbb 卡了,刚刷出来图片。。。
    rjagge
        25
    rjagge  
    OP
       Feb 15, 2023
    @ETiV 我的 user 能 docker ps ,咋搞啊大哥,我就想给 nice 减低一点
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5633 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 78ms · UTC 06:30 · PVG 14:30 · LAX 23:30 · JFK 02:30
    ♥ Do have faith in what you're doing.