[求助] DGX Spark 上 Ollama 推理极慢,改用 llama.cpp 部署是否更合适?

3 月 3 日
 diudiuu

现在手上有一台 NVIDIA DGX Spark(对就是 3 万多的那个,闭眼别问为啥),目前已完成以下配置:


问题描述

推理速度极慢,具体表现如下:


排查结论

查阅官方论坛及社区资料后发现:

Ollama 的部署方式并未针对 DGX Spark 做专项优化,社区普遍推荐在该平台上改用 llama.cpp 直接部署,以充分发挥其 GB10 超级芯片 Unified Memory 统一内存架构的优势。

或者上面的我说的不对,我有看专门设置,但是实际就是很烂


求助

有没有在 DGX Spark 上实际跑过 llama.cpp 的老哥?希望得到以下指点:

  1. 具体部署步骤 或踩坑经验分享
  2. 相比 Ollama ,推理速度提升是否明显
  3. 是否有其他更适合 DGX Spark 的推理框架推荐?(如 vLLM 、MLX 等)

希望有经验的老哥帮我指点一二!🙏

2309 次点击
所在节点    Local LLM
48 条回复
coefu
3 月 5 日
1,你小子真舍得,牛逼。
2 ,我没有设备,你的问题没办法回答。
3 ,如果你愿意共享出来,还是能帮你 debug 试一下的。
diudiuu
3 月 5 日
@coefu
🤫🤫🤫🤫

https://2libra.com/post/ai-applications/vc337z0

快来先学习,已经解决了
coefu
3 月 5 日
@diudiuu https://www.v2ex.com/t/1126516

小伙子,在我面前耍大刀了啊。我只是没有钱买 dgx-spark 。
diudiuu
3 月 5 日
@coefu 牛逼牛逼牛逼我屮艸芔茻
你这这个分析挺厉害,大哥受小弟一拜.
diudiuu
3 月 5 日
@coefu 这个机子也不是我花钱买的,大哥给小弟再看看这个 https://2libra.com/post/ai-tools/SE99dqq 这俩机子推荐哪个,之前我也有问过没有人回答
coefu
3 月 5 日
@diudiuu #5 不差钱的话,全都买啊。mac studio m3 ultra 要是不搞 512g mem ,意义不大,顶配要 10w ,比 dgx spark 贵太多了。如果预算有限,就 dgx spark 咯?反正现在小模型的智能密度很高了。你要专业性和准确性的话,用 rag 提升,当前 ocr 和 rerank 都发展的不错了。

mac studio m3 ultra 可以串起来,组一个 1T mem 的组合 跑 671B 的 deepseek 。不差钱儿的话,这个肯定更好。
coefu
3 月 5 日
@diudiuu #5 我几百块的成本捡的垃圾,都组了一个智能密度看起来还可以的♾️tokens 。只是有时候慢一点。😄
diudiuu
3 月 5 日
@coefu 大哥你真的可以给这些天天自己搭建模型的公司当顾问了,你甚至可以出一个配置表,教程,推荐什么模型一份 99 块. 我现在有个群里面出的是搭建这些 openclaw 教程,一键开服务器卖 token,一份 99.

我想把你介绍给我朋友
coefu
3 月 5 日
@diudiuu #8 谢谢你先,但是我没搞🦞。而且,我对🦞这个方向没什么兴趣,😄。

去年这个时候,我把 langchain/rag 那套都搞过一遍,没什么意思。LLMs 整个领域,我都只用而已。
NikoXu
3 月 10 日
oss 120B 快是因为激活参数才 5B
diudiuu
3 月 11 日
@NikoXu 已经更换本地模型了, 更换成这个了 MiniMax-M2.5 UD-Q3_K_XL,比 oss 120B 更大更快
enihcam
4 月 6 日
你是不是哪个地方没设置对?


https://ollama.com/blog/nvidia-spark-performance
diudiuu
4 月 6 日
@enihcam ollama 不用这个,老老实实用 cpp 安装,性能达到最高,现在装的是 minimax 2.5 的 200b 左右的
上面那个大哥已经分析过了,可以看这个帖子 https://www.v2ex.com/t/1126516
diudiuu
4 月 6 日
diudiuu
4 月 6 日
@enihcam lm studio 这个你也不要试了达不到顶级的,这个里面设置的参数仿佛是假的
enihcam
4 月 6 日
exllamav3 是不是比 llama.cpp 更友好呢?
diudiuu
4 月 6 日
@enihcam 没有试过,cpp 论坛里面例子最多,问题基本都解决了.

https://github.com/NVIDIA/TensorRT-LLM 你可以看看这个,英伟达专门出的
enihcam
4 月 6 日
diudiuu
4 月 7 日
@enihcam
这个说的 vllm ,我个人理解总体是提高并发了
vllm > llama.cpp >>>> ollama 玩具

这台机子 DGX Spark 具体问题,建议去这里找
https://forums.developer.nvidia.com/t/pre-installed-ollama-configuration/349480/12

vllm 和 sglang 我在论坛里面有看过,还是用 llama.cpp 方式去部署了
https://2libra.com/post/ai-applications/vc337z0 这个是我详细部署 oss 120b 的帖子

部署 minamax2.5 也是在 nvidia 论坛里面找到的原帖子,懒得记录了,参数略多
enihcam
4 月 7 日
@diudiuu nvidia 官网说,tensorrtllm 已经预置在 dgxOS 里了,为啥你还要自己搞 llamacpp ?就好奇一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1195382

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX