想自己本地跑大模型,学习大模型,做一些微调等操作,目前看到一款小主机在预算内, CPU AMD Ryzen Al Max+ 395,不知道这套配置是否适合用来学习大模型跑大模型,有没有懂的兄弟可以给点建议。

51 天前
 hmbb
CPU:AMD Ryzen Al Max+ 395 处理器(16 核心 32 线程,最大睿频 5.1GHz ,三级缓存 64MB)
显卡:AMD Radeon 8060S Graphics 40CUs
系统盘:M.2 2280 PCle4.0 x4(最大 4TB)*1
存储盘:M.2 2280 PCle4.0 x4(最大 4TB)*1
内存:128GB(16GB*8) LPDDR5x 8000MT/s (最大可分配 96GB 给显存)
接口:AC*1 + USB3.2(10Gbps)*2 + SD4.0 卡槽*1 + LAN 10Gbps(Intel E610)*2 + USB-C(10Gbps 数据)*1 + 3.5mm 音频插孔*2 + DP2.1 8k 60Hz*1 + HDMI2.1 8K 60Hz*1 + USB4(40Gbps/DP1.4)*2
无线网络:WIFI7 MT7925; 蓝牙 5.4
4723 次点击
所在节点    Local LLM
68 条回复
hmbb
51 天前
@402124773 主要买成品比较省事
lithiumii
51 天前
amd 这一代虽然能跑了,但还是太慢,最后你还是得走上魔改老黄的邪路。或者再等等看下一代
hmbb
51 天前
@lithiumii 貌似是的,下一代可能会好些
nightwitch
51 天前
现在国内租用 gpu 的平台多的是...4090 这种也就两三块钱一小时,3080 这种更便宜。 入门绰绰有余了,500 块钱能够你从入门到放弃好几回了
slowgen
51 天前
你先明确学习的内容是什么。

首先排除训练,Llama 3.1 8B 训练使用 1024 张 H100 80G 训练了一个月也就那样;

然后就微调,显存小就跑个 gpt-oss-20b 和 Qwen3-30B-A3B 的规模,https://docs.unsloth.ai/basics/gpt-oss-how-to-run-and-fine-tune https://docs.unsloth.ai/basics/qwen3-how-to-run-and-fine-tune 大点的模型还不如去 https://www.together.ai/ 导入你的数据集点几下按钮就开始微调了。

然后是推理,推理吃的是带宽和显存,这个价格你直接在 https://apxml.com/zh/tools/vram-calculator 选你要跑的模型和设备来看模拟推理的速度心里就有数了,这个配置性价比最高的也就是跑 gpt-oss-120b 的 mxfp4 量化,其次是 GLM 4.5 Air 的 4bit 量化,速度也就那样,选择 M4 Max 看速度然后除以二就懂了。

再然后是 RAG ,说白了就是找出相关内容然后字符串拼接,你本地跑和调用 API 也没区别,看 llamaindex 代码就懂了,知识库都是围绕那三五十行代码做各种业务和 UI 的封装。
https://github.com/run-llama/llama_index/blob/81d4b871143ddd4a7cb90333a3d103fbb1f269c5/llama-index-core/llama_index/core/prompts/chat_prompts.py#L21

剩下的就是画色图、写黄文、声音转文本、文本转声音、声线克隆
@hmbb
402124773
51 天前
@hmbb
自己组也很简单。并且现在电商很发达的,你什么配置的,找抖音本地大主播配一下,也很简单的。
我建议你别太相信小主机的散热了,另外现在主流大模型学习还是 nvidia 的显卡吧,amd 那玩意不太靠谱。
charlenehe43
51 天前
小主机怎么可能跑大模型啊,我 m1 跑个 1.5b 的模型都卡的批爆,而且你这是 amd 的显卡?cuda 用不了吧,当然我是外行哈说错别怪
ryc111
51 天前
这个小主机很顶,跑小几十 B 的模型都没问题,速度也还过得去( xB 大小的模型还挺快)
大点的模型比如 70B 量化的那种,就比较慢了。

自己本地折腾大模型以及建立个人知识库学习学习挺不错的。

最好玩的就是折腾一些文生图,图生图,还蛮有意思的,lora 微调啥的,内存都够用。
SGL
51 天前
最优的选择是现在 GPU 算力平台花个小几百玩玩儿,然后就做大的决策。
dododada
51 天前
大模型?你这个配置一般的推理没问题,但是大模型微调不行,再微调也是大模型,deepseek 满血配置 200W 起步,你这个只能跑量化
wnpllrzodiac
51 天前
没钱就别自己训练了。4090 最起码的,一张还不够
MIUIOS
51 天前
amd 跑模型? 很难评价
aqqwiyth
51 天前
不考虑一下每秒 token 吞吐量这个指标?
misaki321
51 天前
来张 4090 ,至少能跑非量化的 7b
squarefong17
51 天前
@charlenehe43 他说的那 CPU 跟 M4 pro 在一个性能水平,CPU 、GPU 和带宽都是。哪怕是功耗受限的笔记本跑 qwen-30b-a3b ,最高能有近 50 tokens/s 。跑这个规模的语言模型的场景,cuda 根本不是问题,vulkan 加速就够快了,瓶颈在带宽。
goodryb
51 天前
推理、微调、训练 所需要的资源你可以简单想象成 1:10:100 ,所以你要先清楚你准备做什么,如果只是刚开始想玩玩,建议可以先找 GPU 算力平台租卡来用,或者云厂商都有对应的服务先玩玩,玩的差不多了也就知道你要什么了

显卡首推 NVIDIA ,业界公认 NO.1
Yii234
51 天前
不建议一上来就投入这么大,可以先租赁 gpu ,把部署大模型、微调大模型基础掌握了,再自己攒设备
312ybj
51 天前
手里有一台这个东西,板载内存是能拿 96GB 当显存, 能跑一些稍微大点的模型, 但是推理速度太慢了,当当玩具还行
xusx1024
51 天前
dy 有个‘瓜皮群主’的,经常发一些配置,可以参考。
Haku
51 天前
不建议任何 A 卡跑 AI ,个人跑就用 N 卡完事,省时省力。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1157170

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX