请教 Mac studio 部署 ai,用 ollama 还是 lm studio

2025 年 5 月 15 日
 yyluxe

请教 Mac studio 部署 ai ,用 ollama 还是 lm studio 更好一点?不甚了解,希望懂得朋友可以在给出答案的同事稍微讲一下理由 !~

3567 次点击
所在节点    macOS
21 条回复
Surechun
2025 年 5 月 15 日
非技术人员用 ollama ,部署简单,常用的模型都有。而 LM 一般给技术人员去折腾的,模型量会比 ollama 多一些,模型的选择源多一些(直接去 Hugging Face 下载模型用)
ZiChun
2025 年 5 月 15 日
我的建议是 lmstudio 。我这边 M4 Max 使用 lmstudio 部署 mlx 格式的 qwen-30b-a3b 能有 95t/s ,ollama 部署 qwen-30b-a3b 大概是 75t/s 。
fredweili
2025 年 5 月 15 日
我用 ollama ,简单,模型也比较丰富
不做微调之类的,主要学 MCP 和 Agent
G200
2025 年 5 月 15 日
mlx 格式优先,选 lm studio
icestraw
2025 年 5 月 15 日
我建议 API 。mac 性能太低,模型太小不实用,太大跑不动,ram 装得下并发也低,训练也跑不动。除了玩一下子没啥大用。
heyjei
2025 年 5 月 15 日
lm studio 不是更简单嘛。

在一些网络隔离的环境下,独立部署是非常有必要的。
234ygg
2025 年 5 月 15 日
性能太低,没有部署价值,api 或网页版很便宜
duvet
2025 年 5 月 16 日
API 比电费便宜,除非想自己微调或者担心隐私问题没必要本地部署
slowgen
2025 年 5 月 17 日
用 LM Studio ,配合 MLX 和 DWQ 量化(最新的一个量化方法,质量很好)很不错,开 KV Cache 也方便,我拿 M2 Ultra 跑 Qwen3-30B-A3B-DWQ 的 4bit 版可以到 105token/s ,Qwen3-235B-A22B-DWQ 的 4bit 版本也能到 32token/s
SakuraYuki
2025 年 5 月 19 日
ollama 省事
yyluxe
2025 年 5 月 19 日
@Surechun 好滴 多谢
yyluxe
2025 年 5 月 19 日
@ZiChun 试了试 确实如你所说
yyluxe
2025 年 5 月 19 日
@fredweili 好滴
yyluxe
2025 年 5 月 19 日
@G200 ollama 没有这个格式?
yyluxe
2025 年 5 月 19 日
@icestraw 私密 私密
yyluxe
2025 年 5 月 19 日
@heyjei 是的 太对了
yyluxe
2025 年 5 月 19 日
@duvet 私密 私密
yyluxe
2025 年 5 月 19 日
@shuimugan 好主意
yyluxe
2025 年 5 月 19 日
@SakuraYuki 好的 多谢
yyluxe
2025 年 9 月 10 日
@G200 ollama 能用这个格式不

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1131963

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX