[求助] DGX Spark 上 Ollama 推理极慢，改用 llama.cpp 部署是否更合适？

coefu

3 月 5 日

1,你小子真舍得，牛逼。
2 ，我没有设备，你的问题没办法回答。
3 ，如果你愿意共享出来，还是能帮你 debug 试一下的。

diudiuu

3 月 5 日

@coefu
🤫🤫🤫🤫

https://2libra.com/post/ai-applications/vc337z0

快来先学习,已经解决了

coefu

3 月 5 日

@diudiuu https://www.v2ex.com/t/1126516

小伙子，在我面前耍大刀了啊。我只是没有钱买 dgx-spark 。

diudiuu

3 月 5 日

@coefu 牛逼牛逼牛逼我屮艸芔茻
你这这个分析挺厉害,大哥受小弟一拜.

diudiuu

3 月 5 日

@coefu 这个机子也不是我花钱买的,大哥给小弟再看看这个 https://2libra.com/post/ai-tools/SE99dqq 这俩机子推荐哪个,之前我也有问过没有人回答

coefu

3 月 5 日

@diudiuu #5 不差钱的话，全都买啊。mac studio m3 ultra 要是不搞 512g mem ，意义不大，顶配要 10w ，比 dgx spark 贵太多了。如果预算有限，就 dgx spark 咯？反正现在小模型的智能密度很高了。你要专业性和准确性的话，用 rag 提升，当前 ocr 和 rerank 都发展的不错了。

mac studio m3 ultra 可以串起来，组一个 1T mem 的组合跑 671B 的 deepseek 。不差钱儿的话，这个肯定更好。

coefu

3 月 5 日

@diudiuu #5 我几百块的成本捡的垃圾，都组了一个智能密度看起来还可以的♾️tokens 。只是有时候慢一点。😄

diudiuu

3 月 5 日

@coefu 大哥你真的可以给这些天天自己搭建模型的公司当顾问了,你甚至可以出一个配置表,教程,推荐什么模型一份 99 块. 我现在有个群里面出的是搭建这些 openclaw 教程,一键开服务器卖 token,一份 99.

我想把你介绍给我朋友

coefu

3 月 5 日

@diudiuu #8 谢谢你先，但是我没搞🦞。而且，我对🦞这个方向没什么兴趣，😄。

去年这个时候，我把 langchain/rag 那套都搞过一遍，没什么意思。LLMs 整个领域，我都只用而已。

NikoXu

3 月 10 日

oss 120B 快是因为激活参数才 5B

diudiuu

3 月 11 日

@NikoXu 已经更换本地模型了, 更换成这个了 MiniMax-M2.5 UD-Q3_K_XL,比 oss 120B 更大更快

enihcam

4 月 6 日

你是不是哪个地方没设置对？

https://ollama.com/blog/nvidia-spark-performance

diudiuu

4 月 6 日

@enihcam ollama 不用这个,老老实实用 cpp 安装,性能达到最高,现在装的是 minimax 2.5 的 200b 左右的
上面那个大哥已经分析过了,可以看这个帖子 https://www.v2ex.com/t/1126516

diudiuu

4 月 6 日

@enihcam

diudiuu

4 月 6 日

@enihcam lm studio 这个你也不要试了达不到顶级的,这个里面设置的参数仿佛是假的

enihcam

4 月 6 日

exllamav3 是不是比 llama.cpp 更友好呢？

diudiuu

4 月 6 日

@enihcam 没有试过,cpp 论坛里面例子最多,问题基本都解决了.

https://github.com/NVIDIA/TensorRT-LLM 你可以看看这个,英伟达专门出的

enihcam

4 月 6 日

@diudiuu https://www.reddit.com/r/LocalLLaMA/comments/1oyawkl/why_is_vllm_outperforming_tensorrtllm_nvidias/

diudiuu

4 月 7 日

@enihcam
这个说的 vllm ，我个人理解总体是提高并发了
vllm > llama.cpp >>>> ollama 玩具

这台机子 DGX Spark 具体问题，建议去这里找
https://forums.developer.nvidia.com/t/pre-installed-ollama-configuration/349480/12

vllm 和 sglang 我在论坛里面有看过，还是用 llama.cpp 方式去部署了
https://2libra.com/post/ai-applications/vc337z0 这个是我详细部署 oss 120b 的帖子

部署 minamax2.5 也是在 nvidia 论坛里面找到的原帖子，懒得记录了，参数略多

enihcam

4 月 7 日

@diudiuu nvidia 官网说，tensorrtllm 已经预置在 dgxOS 里了，为啥你还要自己搞 llamacpp ？就好奇一下

[求助] DGX Spark 上 Ollama 推理极慢，改用 llama.cpp 部署是否更合适？

问题描述

排查结论

求助