想自己本地跑大模型,学习大模型,做一些微调等操作,目前看到一款小主机在预算内, CPU AMD Ryzen Al Max+ 395,不知道这套配置是否适合用来学习大模型跑大模型,有没有懂的兄弟可以给点建议。

4 天前
 hmbb
CPU:AMD Ryzen Al Max+ 395 处理器(16 核心 32 线程,最大睿频 5.1GHz ,三级缓存 64MB)
显卡:AMD Radeon 8060S Graphics 40CUs
系统盘:M.2 2280 PCle4.0 x4(最大 4TB)*1
存储盘:M.2 2280 PCle4.0 x4(最大 4TB)*1
内存:128GB(16GB*8) LPDDR5x 8000MT/s (最大可分配 96GB 给显存)
接口:AC*1 + USB3.2(10Gbps)*2 + SD4.0 卡槽*1 + LAN 10Gbps(Intel E610)*2 + USB-C(10Gbps 数据)*1 + 3.5mm 音频插孔*2 + DP2.1 8k 60Hz*1 + HDMI2.1 8K 60Hz*1 + USB4(40Gbps/DP1.4)*2
无线网络:WIFI7 MT7925; 蓝牙 5.4
3545 次点击
所在节点    Local LLM
68 条回复
hmbb
4 天前
@402124773 主要买成品比较省事
lithiumii
4 天前
amd 这一代虽然能跑了,但还是太慢,最后你还是得走上魔改老黄的邪路。或者再等等看下一代
hmbb
4 天前
@lithiumii 貌似是的,下一代可能会好些
nightwitch
4 天前
现在国内租用 gpu 的平台多的是...4090 这种也就两三块钱一小时,3080 这种更便宜。 入门绰绰有余了,500 块钱能够你从入门到放弃好几回了
shuimugan
4 天前
你先明确学习的内容是什么。

首先排除训练,Llama 3.1 8B 训练使用 1024 张 H100 80G 训练了一个月也就那样;

然后就微调,显存小就跑个 gpt-oss-20b 和 Qwen3-30B-A3B 的规模,https://docs.unsloth.ai/basics/gpt-oss-how-to-run-and-fine-tune https://docs.unsloth.ai/basics/qwen3-how-to-run-and-fine-tune 大点的模型还不如去 https://www.together.ai/ 导入你的数据集点几下按钮就开始微调了。

然后是推理,推理吃的是带宽和显存,这个价格你直接在 https://apxml.com/zh/tools/vram-calculator 选你要跑的模型和设备来看模拟推理的速度心里就有数了,这个配置性价比最高的也就是跑 gpt-oss-120b 的 mxfp4 量化,其次是 GLM 4.5 Air 的 4bit 量化,速度也就那样,选择 M4 Max 看速度然后除以二就懂了。

再然后是 RAG ,说白了就是找出相关内容然后字符串拼接,你本地跑和调用 API 也没区别,看 llamaindex 代码就懂了,知识库都是围绕那三五十行代码做各种业务和 UI 的封装。
https://github.com/run-llama/llama_index/blob/81d4b871143ddd4a7cb90333a3d103fbb1f269c5/llama-index-core/llama_index/core/prompts/chat_prompts.py#L21

剩下的就是画色图、写黄文、声音转文本、文本转声音、声线克隆
@hmbb
402124773
4 天前
@hmbb
自己组也很简单。并且现在电商很发达的,你什么配置的,找抖音本地大主播配一下,也很简单的。
我建议你别太相信小主机的散热了,另外现在主流大模型学习还是 nvidia 的显卡吧,amd 那玩意不太靠谱。
charlenehe43
4 天前
小主机怎么可能跑大模型啊,我 m1 跑个 1.5b 的模型都卡的批爆,而且你这是 amd 的显卡?cuda 用不了吧,当然我是外行哈说错别怪
ryc111
4 天前
这个小主机很顶,跑小几十 B 的模型都没问题,速度也还过得去( xB 大小的模型还挺快)
大点的模型比如 70B 量化的那种,就比较慢了。

自己本地折腾大模型以及建立个人知识库学习学习挺不错的。

最好玩的就是折腾一些文生图,图生图,还蛮有意思的,lora 微调啥的,内存都够用。
SGL
3 天前
最优的选择是现在 GPU 算力平台花个小几百玩玩儿,然后就做大的决策。
dododada
3 天前
大模型?你这个配置一般的推理没问题,但是大模型微调不行,再微调也是大模型,deepseek 满血配置 200W 起步,你这个只能跑量化
wnpllrzodiac
3 天前
没钱就别自己训练了。4090 最起码的,一张还不够
totoro52
3 天前
amd 跑模型? 很难评价
aqqwiyth
3 天前
不考虑一下每秒 token 吞吐量这个指标?
misaki321
3 天前
来张 4090 ,至少能跑非量化的 7b
squarefong17
3 天前
@charlenehe43 他说的那 CPU 跟 M4 pro 在一个性能水平,CPU 、GPU 和带宽都是。哪怕是功耗受限的笔记本跑 qwen-30b-a3b ,最高能有近 50 tokens/s 。跑这个规模的语言模型的场景,cuda 根本不是问题,vulkan 加速就够快了,瓶颈在带宽。
goodryb
3 天前
推理、微调、训练 所需要的资源你可以简单想象成 1:10:100 ,所以你要先清楚你准备做什么,如果只是刚开始想玩玩,建议可以先找 GPU 算力平台租卡来用,或者云厂商都有对应的服务先玩玩,玩的差不多了也就知道你要什么了

显卡首推 NVIDIA ,业界公认 NO.1
Yii234
3 天前
不建议一上来就投入这么大,可以先租赁 gpu ,把部署大模型、微调大模型基础掌握了,再自己攒设备
312ybj
3 天前
手里有一台这个东西,板载内存是能拿 96GB 当显存, 能跑一些稍微大点的模型, 但是推理速度太慢了,当当玩具还行
xusx1024
3 天前
dy 有个‘瓜皮群主’的,经常发一些配置,可以参考。
Haku
3 天前
不建议任何 A 卡跑 AI ,个人跑就用 N 卡完事,省时省力。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1157170

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX