现在手上有一台 NVIDIA DGX Spark(对就是 3 万多的那个,闭眼别问为啥),目前已完成以下配置:
推理速度极慢,具体表现如下:
查阅官方论坛及社区资料后发现:
Ollama 的部署方式并未针对 DGX Spark 做专项优化,社区普遍推荐在该平台上改用 llama.cpp 直接部署,以充分发挥其 GB10 超级芯片 Unified Memory 统一内存架构的优势。
或者上面的我说的不对,我有看专门设置,但是实际就是很烂
有没有在 DGX Spark 上实际跑过 llama.cpp 的老哥?希望得到以下指点:
希望有经验的老哥帮我指点一二!🙏
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.