请教下跑 openclaw 对接本地大模型的时候, 又没用过 omlx 进行加速?

3 月 28 日
 Hermitist
https://github.com/jundot/omlx

有人说这个可以加速 3 倍, 特别是对首字节, 希望有人试下并反馈.

为什么我自己不试呢, 因为我的笔记本太垃圾了, 我还特意买了 32G 内存的, 现在跑了个千问 3.5-9B 的, 内存已经爆表了.
1323 次点击
所在节点    OpenClaw
4 条回复
testboy
3 月 28 日
这个是针对 macos 的吧
keithwhisper
3 月 29 日
首字节加速得益于 MLX 专门为 Metal 设计的, 你用其他 mlx inference engine 也有这效果.
说 omlx 快 3 倍, 其实是指比 mlx 快 3 倍, 因为 mlx 的 kv cache 没有优化, omlx 引入了 disk cache 缓解, 让 mlx 可以实际用于 agentic loop.

我正好在设计这个, 过两天发个 alpha 你可以试下
keithwhisper
3 月 29 日
不过现阶段还是推荐用 gguf 的模型, 因为量化质量更好. mlx 的模型主要还是均匀量化(这几天出了几个 mixed precision quantization, 还没有尝试), 质量不如 gguf 的量化版本.
Hermitist
3 月 29 日
@keithwhisper 期待.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1201766

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX