AI 本地化部署的方式

8o8

18 小时 35 分钟前

本地部署性能有点跟不上，我在本地跑的 15b phi4 用来进行编程，感觉上下文长度限制很大，经常写着写着就忘了要干什么，总之很不好用。如果有哪位大佬本地调好了请指点一下。
在三个配置上都试了：
1.台式机，14900K+256GB 内存，使用 cpu 跑
2.笔记本电脑，14900K+64G 内存+4070
3.服务器，至强 6138*2+512G 内存+3080-12GB*4

songyoucai

18 小时 4 分钟前

@8o8 #23 我们可以交流交流我现在编程部署的 30b 感觉够用

YsHaNg

17 小时 36 分钟前

@8o8 都有第三个平台了为什么跑 phi4 这么上古的模型还是个 14b 的

YsHaNg

17 小时 35 分钟前

@8o8 都有第三个平台了为什么跑 phi4 这么上古的模型还是个 14b 的按说这能跑 qwen3-coder:480b

davidyin

15 小时 14 分钟前

@wenkgin
是的

wtks1

9 小时 44 分钟前

有没有那种本地部署，家用 pc 也能带的动的翻译模型？

iorilu

8 小时 54 分钟前

说实话, 本地部署唯一有点用的就是翻译

翻译说实话确实不需要太大模型, 8b 就行了

其他的还是算了, 真想干点活, 还得上 api, 除非你有能力部署那种满血 deepseek, 那是另一回事

busier

7 小时 54 分钟前

lm studio 操作界面友好些

shuimugan

27 分钟前

@wenkgin 内存小小，带宽小小，只能找 [激活参数 < 5B] 的模型的 4bit 量化了。

Qwen3-Next-80B-A3B 系列、Qwen3-30B-A3B-2507 系列、ERNIE-4.5-21B-A3B-Thinking 、SmallThinker-21BA3B-Instruct 这些都能在低配置玩，里面的 A3B 的意思就是激活的参数只有 3B ，4bit 量化后 DDR4-3200 双通道的带宽 50GB/s 左右也能跑个 15token/s 左右（单人勉强用），像锐龙 AI Max+ 395 的 256GB/s 的内存带宽就能跑个 55token/s 左右。

其实本地模型现在已经很能打了，从 Mixtral-8x7B 开始打 ChatGPT3.5 的时候 MoE 架构模型应该成为主流，可惜国内一直没怎么跟，直到 DeepSeek V2.5 V3 R1 这些出来国内才跟进大搞 MoE 模型，今年出的模型都是 MoE 为主的了。

而且模型越大提升的能力分数并不是线性增加的，关注现在的模型跑分就能得出结论，就像前几天的 Qwen3-Max-Preview ，1000B 的参数，比自家 Qwen3-235B-A22B-2507 多了 765B ，这个差距差不多能塞一个 DeepSeek + gpt-oss-120b 了，然而性能提升连 10%都没有，所以现在选模型有点像玩游戏选个甜品卡那样，根据你的任务难度和硬件选一个合适的模型（你的任务里跑分高的）就行了。

你这个硬件看起来像是个笔记本带个小显存的 N 卡，模型从上面 A3B 里挑一个，部署方案首选 https://github.com/kvcache-ai/ktransformers （合理分配好模型活跃的专家到 GPU 跑得快点），次选 LM Studio 这种傻瓜式部署方案

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1158786

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.