配置小主机跑大模型

2024-02-18 08:46:44 +08:00
 wxd21020

在下目前有个蜗牛黑群辉,j1900 ,搞一些小东西还是够用的; 新年伊始,想着整个小主机玩玩,配置稍微高一点,主要是想 ALL IN ONE ,大佬们有啥配置建议没;预算 1000 到 2000 左右。 还有一点是想在小主机上跑个低配的那种大模型,只要输入一段文字能检索出关键信息、关键字等等这些功能就行,不需要复杂功能。 求兄弟们支招哇。

12374 次点击
所在节点    Local LLM
83 条回复
jonty
2024-02-18 08:55:53 +08:00
AIO 的话,没啥拓展需求,12 代 i3 将将够组一套吧
paopjian
2024-02-18 08:56:28 +08:00
现在 LLM 门槛也没有那么低吧, mistral 7b 也不小, 真需要就找在线服务吧
winson030
2024-02-18 09:05:13 +08:00
好奇,一两千的预算,不上独显怎么跑模型?
hahiru
2024-02-18 09:09:15 +08:00
从你的描述中看得出来,你似乎并没有明确的大模型需求。
因为大部分小模型预设的并不好用,得针对性微调。
微调比加载需要更多显存。如果不想微调也得有显卡,不然 CPU 那速度真不如不用。
建议先主力机跑通流程,然后选符合门槛的小型机配置。
opengps
2024-02-18 09:12:07 +08:00
建议先用你自己电脑跑一套,满足需要后再去考虑配置硬件
nealot
2024-02-18 09:18:42 +08:00
据说有些 APU 能把显存魔改到 16G 然后跑大模型

J1900 还是算了吧
ychost
2024-02-18 09:23:38 +08:00
小主跑 LLM 几乎不可能,也不要想着 ALL IN ONE 了 BOOM 就不好了,我的小主机只装了个 Ubuntu ,其余的靠 docker 来安装
wxd21020
2024-02-18 09:34:59 +08:00
@hahiru 目前倒是有一个主力台式机,上的 3060TI 显卡,是否可以结合使用呢
@ychost 那你也是小主机装个 Linux 然后把所有东西都怼到 docker 是吧,这种方式也是可以的。
@winson030 可以把台式机的 3060TI 显卡拆下来用,不知道能不能支持。
wxd21020
2024-02-18 09:35:29 +08:00
@nealot 现在就是想整个机器,1900 肯定是啥也跑不了的
JensenQian
2024-02-18 09:37:16 +08:00
主机卖掉
冲个 chatgpt plus
完毕
hahiru
2024-02-18 09:37:28 +08:00
主力机跑模型,小主机跑 API 可以,其他不要想了。人工智能本地化就是资源堆砌,和小主机的初衷相悖。
makerbi
2024-02-18 09:38:32 +08:00
如果只是关键字提取、文本摘要这种的需求的话用 1~2B 的模型就可以了,llama.cpp 量化部署,纯 CPU 跑就行,内存不要太小都没问题。
ShadowPower
2024-02-18 09:57:45 +08:00
@nealot APU 的方案不如直接用 CPU 快,我试过……
nealot
2024-02-18 09:57:58 +08:00
@wxd21020 搜 Reddit 帖子
I turned a $95 AMD APU into a 16GB VRAM GPU and it can run stable diffusion
wxd21020
2024-02-18 10:03:12 +08:00
@JensenQian 我现在就用 3.5 ,plus 感觉没那么大需求

@hahiru 可以先拿主力机试试
@makerbi 感谢老哥,现在需求也就搞点文字,提取文本啥的这些需求,我研究一下整个模型。
@nealot 安排
ShadowPower
2024-02-18 10:03:56 +08:00
我之前用 Intel N100 跑过。实际上速度还能接受,这玩意的内存还只是单通道(或者算 32bit 位宽双通道)的。
再过一段时间也许会有更好的方案,苹果提出的那个还是手机内存+手机闪存的组合。

找个 DDR5 双通道(在 CPU-Z 里应该显示 32bit 四通道)的主机就好了。不建议选 AMD 平台,因为有内存带宽上限 50GB/s 的限制,只有 APU 能用得上更高的带宽。然而我用 6800H 试了,真实表现不如 CPU 推理。
ShadowPower
2024-02-18 10:07:03 +08:00
@nealot Stable Diffusion 和 LLM 的性能表现不一样,我都试过……
Stable Diffusion 的话,我的 7840HS 比 M2 Pro 都快(用 Olive ONNX ),但是 LLM 则反过来了。
reeco
2024-02-18 10:14:16 +08:00
纯 cpu 跑买一块支持 avx512 的 cpu 加 32G 内存,跑跑量化 7b 的也还行。用 gpu 你那块 3060ti 跑 7b 也完全够了,单独配其实也可以考虑 amd rocm ,便宜大碗。但目前这块需求其实没那么强,跑起来新鲜劲一过,容易吃灰。
network127001
2024-02-18 10:18:09 +08:00
跑大模型的都是电老虎啊,魔搭社区好像可以白嫖资源
ShadowPower
2024-02-18 10:25:23 +08:00
@reeco AVX512 对这个场景没有提升。
目前的情况,CPU 的运算速度不是瓶颈,瓶颈都在从内存到 CPU 的带宽上。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1016094

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX