yoloV8 推理 cpu 占用问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 501 天前的主题，其中的信息可能已经有所发展或是发生改变。

前文讲过采购服务器，有个兄弟讲钱花在刀把上了。

换了 cpu ，视频分析推理整体的性能提升了三分之一。

但是有个很大的问题，和以前一样的问题，gpu 跑不满，最高 40%； gpu 跑的时候 cpu 倒是占满了。

做了训练测试，用来训练数据 gpu 倒是能跑满。

算法的同事讲 yolov8 检测就是吃 cpu ，因为会有频繁的 gpu/cpu 切换。

找了一些方法，都被算法否掉了。

我不是做算法的，请教一下各位兄弟，yolov8 真的会吃 cpu 么？

如果吃/不吃，有啥办法提升 gpu 的占用么？

yolov8

CPU

GPU

13 条回复 • 2024-05-09 11:53:21 +08:00

mjawp

2024-05-08 17:06:37 +08:00

检测的预处理和后处理部分应该是 cpu 做的，这一部分想办法独立出来做异步试试

sugarkeek

2024-05-08 17:07:47 +08:00

我用 yolo 的 trt 部署的时候是在 cpu 吃满的情况下，逐渐增加 gpu 的占用

ZnductR0MjHvjRQ3

2024-05-08 17:10:55 +08:00

可以贴一下你配置的那个帖吗最近也在准备采购

dododada

2024-05-08 17:14:34 +08:00

@mjawp 其实我提了个想法，就是 cpu 的归 cpu ，gpu 的归 gpu ，中间通过内存或者其他方式共享结果数据。就是把消息队列那一套搬过来，但是算法说这样搞要从头开始重新 C++写一遍，代价太高了。

这么一讲，我就想要不要拆掉一块 gpu ，插到我们的训练服务器上去

ktyang

2024-05-08 17:15:45 +08:00

推理和训练的算力需求是不一样的不知道你整个 pipeline 是怎么设计的不太好给具体的建议

ktyang

2024-05-08 17:16:52 +08:00

@dododada 显存和内存在物理上是两个东西。。。

dododada

2024-05-08 17:24:46 +08:00

@Motorola3
2 * Intel Xeon 4316(20C,150W,2.3GHz)

8 * 32GB DDR4-3200MHz RDIMM

1 * SSD_1.92TSATA6Gpbs.2.5in

2 * M6_3.5.7.2K SATA 4TB_HDD

2 * NVDIA RTX 4090 24GB

2 * 2700W 铂金电源模块

1 * 标配导轨，满配散热风扇

目前看起来，这个 U 还是配低了，8 系的估计会更好一些

ZnductR0MjHvjRQ3

2024-05-08 17:47:30 +08:00

@dododada 好的多谢

dododada

2024-05-08 17:54:07 +08:00

@Motorola3 这个电源贵，2000W 的应该就够了； 2 光口和 4 电口的价格差别不太大，主要看网络需求； raid 卡有的只支持 0/1 ，标卡支持 0/1/5/6/10/50/60 ，也是看需求，差价比较大；

mMartin

2024-05-09 09:05:43 +08:00

我们把 nms 之类的全放到显卡来处理了 cpu 几乎不占用

mMartin

2024-05-09 09:06:16 +08:00

全用 cuda 写的推理

tap91624

2024-05-09 09:43:27 +08:00

抓一下看看是不是算子都执行在 cpu 上了

qieqie

2024-05-09 11:53:21 +08:00

推理吃不满就是 GPU 并行度太低，延迟允许的话，把 batch 加上去看看