配置小主机跑大模型

在下目前有个蜗牛黑群辉，j1900 ，搞一些小东西还是够用的；新年伊始，想着整个小主机玩玩，配置稍微高一点，主要是想 ALL IN ONE ，大佬们有啥配置建议没；预算 1000 到 2000 左右。还有一点是想在小主机上跑个低配的那种大模型，只要输入一段文字能检索出关键信息、关键字等等这些功能就行，不需要复杂功能。求兄弟们支招哇。

jonty

2024-02-18 08:55:53 +08:00

AIO 的话，没啥拓展需求，12 代 i3 将将够组一套吧

paopjian

2024-02-18 08:56:28 +08:00

现在 LLM 门槛也没有那么低吧, mistral 7b 也不小, 真需要就找在线服务吧

winson030

2024-02-18 09:05:13 +08:00

好奇，一两千的预算，不上独显怎么跑模型？

hahiru

2024-02-18 09:09:15 +08:00

从你的描述中看得出来，你似乎并没有明确的大模型需求。
因为大部分小模型预设的并不好用，得针对性微调。
微调比加载需要更多显存。如果不想微调也得有显卡，不然 CPU 那速度真不如不用。
建议先主力机跑通流程，然后选符合门槛的小型机配置。

opengps

2024-02-18 09:12:07 +08:00

建议先用你自己电脑跑一套，满足需要后再去考虑配置硬件

nealot

2024-02-18 09:18:42 +08:00

据说有些 APU 能把显存魔改到 16G 然后跑大模型

J1900 还是算了吧

ychost

2024-02-18 09:23:38 +08:00

小主跑 LLM 几乎不可能，也不要想着 ALL IN ONE 了 BOOM 就不好了，我的小主机只装了个 Ubuntu ，其余的靠 docker 来安装

wxd21020

2024-02-18 09:34:59 +08:00

@hahiru 目前倒是有一个主力台式机，上的 3060TI 显卡，是否可以结合使用呢
@ychost 那你也是小主机装个 Linux 然后把所有东西都怼到 docker 是吧，这种方式也是可以的。
@winson030 可以把台式机的 3060TI 显卡拆下来用，不知道能不能支持。

wxd21020

2024-02-18 09:35:29 +08:00

@nealot 现在就是想整个机器，1900 肯定是啥也跑不了的

JensenQian

2024-02-18 09:37:16 +08:00

主机卖掉
冲个 chatgpt plus
完毕

hahiru

2024-02-18 09:37:28 +08:00

主力机跑模型，小主机跑 API 可以，其他不要想了。人工智能本地化就是资源堆砌，和小主机的初衷相悖。

makerbi

2024-02-18 09:38:32 +08:00

如果只是关键字提取、文本摘要这种的需求的话用 1~2B 的模型就可以了，llama.cpp 量化部署，纯 CPU 跑就行，内存不要太小都没问题。

ShadowPower

2024-02-18 09:57:45 +08:00

@nealot APU 的方案不如直接用 CPU 快，我试过……

nealot

2024-02-18 09:57:58 +08:00

@wxd21020 搜 Reddit 帖子
I turned a $95 AMD APU into a 16GB VRAM GPU and it can run stable diffusion

wxd21020

2024-02-18 10:03:12 +08:00

@JensenQian 我现在就用 3.5 ，plus 感觉没那么大需求

@hahiru 可以先拿主力机试试
@makerbi 感谢老哥，现在需求也就搞点文字，提取文本啥的这些需求，我研究一下整个模型。
@nealot 安排

ShadowPower

2024-02-18 10:03:56 +08:00

我之前用 Intel N100 跑过。实际上速度还能接受，这玩意的内存还只是单通道（或者算 32bit 位宽双通道）的。
再过一段时间也许会有更好的方案，苹果提出的那个还是手机内存+手机闪存的组合。

找个 DDR5 双通道（在 CPU-Z 里应该显示 32bit 四通道）的主机就好了。不建议选 AMD 平台，因为有内存带宽上限 50GB/s 的限制，只有 APU 能用得上更高的带宽。然而我用 6800H 试了，真实表现不如 CPU 推理。

ShadowPower

2024-02-18 10:07:03 +08:00

@nealot Stable Diffusion 和 LLM 的性能表现不一样，我都试过……
Stable Diffusion 的话，我的 7840HS 比 M2 Pro 都快（用 Olive ONNX ），但是 LLM 则反过来了。

reeco

2024-02-18 10:14:16 +08:00

纯 cpu 跑买一块支持 avx512 的 cpu 加 32G 内存，跑跑量化 7b 的也还行。用 gpu 你那块 3060ti 跑 7b 也完全够了，单独配其实也可以考虑 amd rocm ，便宜大碗。但目前这块需求其实没那么强，跑起来新鲜劲一过，容易吃灰。

network127001

2024-02-18 10:18:09 +08:00

跑大模型的都是电老虎啊，魔搭社区好像可以白嫖资源

ShadowPower

2024-02-18 10:25:23 +08:00

@reeco AVX512 对这个场景没有提升。
目前的情况，CPU 的运算速度不是瓶颈，瓶颈都在从内存到 CPU 的带宽上。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1016094

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.