V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
dododada
V2EX  ›  程序员

yoloV8 推理 cpu 占用问题

  •  
  •   dododada · 2024-05-08 17:03:55 +08:00 · 2017 次点击
    这是一个创建于 501 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前文讲过采购服务器,有个兄弟讲钱花在刀把上了。

    换了 cpu ,视频分析推理整体的性能提升了三分之一。

    但是有个很大的问题,和以前一样的问题,gpu 跑不满,最高 40%; gpu 跑的时候 cpu 倒是占满了。

    做了训练测试,用来训练数据 gpu 倒是能跑满。

    算法的同事讲 yolov8 检测就是吃 cpu ,因为会有频繁的 gpu/cpu 切换。

    找了一些方法,都被算法否掉了。

    我不是做算法的,请教一下各位兄弟,yolov8 真的会吃 cpu 么?

    如果吃/不吃,有啥办法提升 gpu 的占用么?

    13 条回复    2024-05-09 11:53:21 +08:00
    mjawp
        1
    mjawp  
       2024-05-08 17:06:37 +08:00
    检测的预处理和后处理部分应该是 cpu 做的,这一部分想办法独立出来做异步试试
    sugarkeek
        2
    sugarkeek  
       2024-05-08 17:07:47 +08:00
    我用 yolo 的 trt 部署的时候是在 cpu 吃满的情况下,逐渐增加 gpu 的占用
    ZnductR0MjHvjRQ3
        3
    ZnductR0MjHvjRQ3  
       2024-05-08 17:10:55 +08:00
    可以贴一下你配置的那个帖吗 最近也在准备采购
    dododada
        4
    dododada  
    OP
       2024-05-08 17:14:34 +08:00
    @mjawp 其实我提了个想法,就是 cpu 的归 cpu ,gpu 的归 gpu ,中间通过内存或者其他方式共享结果数据。就是把消息队列那一套搬过来,但是算法说这样搞要从头开始重新 C++写一遍,代价太高了。

    这么一讲,我就想要不要拆掉一块 gpu ,插到我们的训练服务器上去
    ktyang
        5
    ktyang  
       2024-05-08 17:15:45 +08:00
    推理和训练的算力需求是不一样的 不知道你整个 pipeline 是怎么设计的 不太好给具体的建议
    ktyang
        6
    ktyang  
       2024-05-08 17:16:52 +08:00
    @dododada 显存和内存在物理上是两个东西。。。
    dododada
        7
    dododada  
    OP
       2024-05-08 17:24:46 +08:00
    @Motorola3
    2 * Intel Xeon 4316(20C,150W,2.3GHz)

    8 * 32GB DDR4-3200MHz RDIMM

    1 * SSD_1.92TSATA6Gpbs.2.5in

    2 * M6_3.5.7.2K SATA 4TB_HDD

    2 * NVDIA RTX 4090 24GB

    2 * 2700W 铂金电源模块

    1 * 标配导轨,满配散热风扇

    目前看起来,这个 U 还是配低了,8 系的估计会更好一些
    ZnductR0MjHvjRQ3
        8
    ZnductR0MjHvjRQ3  
       2024-05-08 17:47:30 +08:00
    @dododada 好的 多谢
    dododada
        9
    dododada  
    OP
       2024-05-08 17:54:07 +08:00
    @Motorola3 这个电源贵,2000W 的应该就够了; 2 光口和 4 电口的价格差别不太大,主要看网络需求; raid 卡有的只支持 0/1 ,标卡支持 0/1/5/6/10/50/60 ,也是看需求,差价比较大;
    mMartin
        10
    mMartin  
       2024-05-09 09:05:43 +08:00
    我们把 nms 之类的全放到显卡来处理了 cpu 几乎不占用
    mMartin
        11
    mMartin  
       2024-05-09 09:06:16 +08:00
    全用 cuda 写的推理
    tap91624
        12
    tap91624  
       2024-05-09 09:43:27 +08:00
    抓一下看看是不是算子都执行在 cpu 上了
    qieqie
        13
    qieqie  
       2024-05-09 11:53:21 +08:00
    推理吃不满就是 GPU 并行度太低,延迟允许的话,把 batch 加上去看看
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5524 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 01:37 · PVG 09:37 · LAX 18:37 · JFK 21:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.