想折腾一个 AI 主机,请行家出手

11 小时 4 分钟前
 davidyin
打算自组一 AI 主机,用于本地 llm 。 可用于 kiro IDE 的,gitlab duo 。


可行性有多大,能否代替订阅的那些 ai 服务?

配置有没有推荐的,各 AI 行家请出手相助。
1388 次点击
所在节点    Local LLM
35 条回复
restkhz
3 小时 17 分钟前
@davidyin 我不专业,但是有些经验你可以参考:

12G 显存太小了,完全完全地不推荐。小的模型完全能跑,甚至跑挺快,但模型本身太小鸡肋无用,能做点事的模型至少 30B 左右。哪怕 Q4 了你 12G 也跑不动。我有一个 3060 ,12G 显存,算力带宽都没问题但是生产力相关的基本什么都跑不了。

另外 UMA 带宽小的要谨慎。比如 AI MAX 395 ,我有一台,请谨慎考虑。用 Qwen3.6 35B 那些 MoE 模型倒是挺好,密集模型速度很慢,比如 Qwen3.6 27B ,不错的模型,但是跑推理大概 10t/s 不到,非常缓慢。不知道未来上 MTP 或者投机解码会不会有一点改善,最近 llama.cpp 有但是貌似还没进主线。另外在 395 上 Q4,Q5 的 Qwen3.5 122B 倒也不是不能跑,但是经常让我觉得不如高精度的 Qwen3.6 35B 。

还有 AI MAX 395 跑 ComfyUI 那些扩散模型玩 AIGC 也不快,能跑是都能跑,就是太慢。跑 LTX-2.3 生成 5 秒视频用了 15 分钟。这机器内存大很多东西都能跑,但问题是很多东西跑不快...

精度也很重要,我不觉得 Q4 量化真的好用。能跑归能跑,但是回答模棱两可,幻觉多,不建议用于生产。为了生产有条件建议 Q6 起步。

说到底还是建议直接 VRAM 直接 32G 起步吧。首先关注 VRAM,其次关注带宽。24G 可以是 ComfyUI 玩得舒服,但是你要跑编码我真不建议。
如果没这个预算建议买 API,剩下钱理财。说不定还能再赚点,过一年再看看模型能力提高,硬件会不会降价。不然你的钱就是打水漂的。

我只是踩过坑,请你千万不要对 20G 以下 VRAM 抱有任何不切实际的幻想。甚至我上文提到的那些模型生产力在 claude, gemini 和 chatGPT 面前也不是一个档次的。只是说,它具备这个能力罢了。
我是之前有搞信息安全上的需要,我不得不用 abliterated 模型才搞的...
csunny
3 小时 5 分钟前
5060ti 16G + 32G ddr5 跑 qwen3.6 35B Q5 。llama.cpp 速度大概 56/s 。
csunny
3 小时 4 分钟前
@csunny 纠正一下,是 64G ddr5
2000wcw
2 小时 40 分钟前
为啥大家都不支持 PO 主?我倒觉得应该大力支持一下,然后 PO 主真金白银花了后说一下实际感受,这样我们才好避坑。
bytesfold
2 小时 33 分钟前
我的建议直接 rtx pro 6000 ,不好用直接出掉
frankies
2 小时 29 分钟前
@davidyin #7 4070 部署不了大模型,部署量化后的阉割模型也费劲,推理慢不说还智障。提升不了预算就用 api ,钱包会告诉你并不洁癖
cin
2 小时 20 分钟前
你的这个"初步的配置清单"能跑起来的模型大概有 gemma4:e4b gemma-3-12b qwen3.5-9b 之类的,先建议找个对应的 api 尝试下
另外 24GB/32GB 显存能跑的模型: qwen3.6:27b gemma4:31b
tcper
2 小时 12 分钟前
如果你真想跑 LLM ,显存顶到最高就行,不过就怕又来一句,也想玩玩 3A 游戏
whusnoopy
2 小时 1 分钟前
1. 预算多少?上可到 512G 的 M3 Ultra 的 Mac Studio ,或 128G 的 nVidia DGX Spark
2. 是否专用用途,还是日常还可娱乐游戏?专用用途的话就可以不在乎必须 Windows 或 NV 的游戏卡,日常还要娱乐游戏那就要选大显存的游戏卡了
3. 性能期望?要能跑大参数模型,就得显存大,这时候 Mac 这样的统一内存就有优势,但速度可能不行。要速度可能就得 NV 的游戏卡或专业卡,但显存可能不够大,不够加载更大参数的模型
zls3201
1 小时 35 分钟前
@davidyin cpu 高了 显卡我觉得 5060ti 16G 可能比你这个好

我最近看 reddit ,很多用 unsloth/Qwen3.6-35B-A3B 量化版本的,有内存 8g 都用起来的
smlcgx
1 小时 32 分钟前
如果你玩本地推理的话,M3 ultra 确实是必备选项之一,电费账单是一笔隐藏开支,尤其是长期下来
davidyin
52 分钟前
诸位快把我劝退了。


@zzutmebwd
没用过国产的。也只用过 kiro 订阅的几种。

@bzw875
不训练,只是推理。


@restkhz
你的经验非常有用,谢谢这么详细的回复。那就是 16g 显卡还是可以用用的意思喽?

@2000wcw
别这样,我很听劝的。本来也不是用来谋生,只是爱好者。


@frankies
也不是那么洁癖,主要担心一不小心把什麽密钥啊,API 溜出去。

@cin
这个建议好,我去试试。

@tcper
玩游戏也想过,不过我的 Xbox series x 也刚买不久。
davidyin
35 分钟前
@whusnoopy
目前的预算在两千美元,再多就感觉自己不配用这么贵的东西了。




@smlcgx
电费的话,应该不用二十四小时开机的话,还好吧。之前用过 r710 服务器,玩了一年,觉得厌了就出手了。
uprit
16 分钟前
显卡俺在用双卡 2080ti-22GB ,总共 44GB 显存,主机还是 1151 的老平台。可以跑 qwen3.6-27B-Q4KM ,256K 上下文,推理速度大概 20T/s
alinwu05
14 分钟前
不划算,机器便宜了,LLM 不够聪明,没有意义啊,请一个小学生干活当然便宜,但是干不了活也不中呀
maolon
4 分钟前
楼上提议的挺好的,
另外 qwen3.6:27b gemma4:31b 像这个等级的模型只能算是可用,能拿来干些像是数据清洗,小代码库编程,或者是指令非常明确的 computer use 这种 agentic flow ,或者随便写点文案,性能大概相当于去年 100B 级别的模型

跟现在的旗舰或者次旗舰模型还是差很远的(尤其是现在各家都开始往 1T 到几 T 的参数量发展),对本地模型的期望还是要明确的好

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1211566

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX