本地 AI 工作站装机

161 天前
 fcten

一直都想装一台 EPYC 工作站。前段时间看到华南金牌出了 EPYC 平台的 H12D 主板,终于忍不住下手了。

部件 型号 价格 购入渠道
CPU 7c13 3699 淘宝
主板 华南 h12d+BMC 模块 2388 天猫旗舰店
内存 三星 32G 3200 拆机 x 8 1520 淘宝
固态 致态 7100 939 天猫旗舰店
显卡 4090d 48G 19300 闲鱼,淘宝店下单
散热 金钱豹 SP3-M99 429 淘宝
电源 海韵 GX1000 1199 天猫旗舰店
机箱 PA602 1394 天猫旗舰店

总计:30868

主板使用了一周多到目前为止没遇到什么大问题。说一下几个小注意事项:

  1. BMC 卡看成色应该是二手的。
  2. 主板上除了 CPU_FAN 和 SYS_FAN 以外,其余风扇接口需要通过 BMC 控制。但是电源断电后设置会重置(关机不会)。
  3. 视频输出接口只有一个 VGA ,并且如果不选配 BMC 的话 VGA 接口是无法使用的。
  4. 主板固定螺丝和普通消费级 ATX 主板相比少一个,安装时注意拆掉机箱上多余的螺柱避免划伤主板

主板的优势:

  1. 4 条 PCIE 4.0x16 通道(适合搭建 4 卡 GPU 工作站)
  2. 8 通道 DDR4 内存,最大支持 2TB
  3. 可以通过 BMC 模块进行远程控制(开关机等)
  4. 全新,三年质保

主板的劣势:

  1. 接口没有消费级主板丰富
  2. PCIE 通道没有全部利用

其它装机建议:

  1. 原本打算捡垃圾上 4 卡 t10 的,所以电源只选了 1000w 。请根据自己的需要一步到位选择更大的电源(上大功率电源注意家庭电路负载,谨防火灾)。
  2. 对 48G 显存没有强需求,对保修有顾虑,不能忍受涡轮卡的噪音,不建议选择 4090d 48G 。
  3. 调整风扇策略后,显卡无负载时整机非常安静。显卡满载时风扇噪音起飞(差不多是有人一直在隔壁房间用吹风机的水平)。
  4. 整套系统的待机功耗较高,闲置时可以关机,需要使用时通过 ipmitool 远程开机。
1955 次点击
所在节点    Local LLM
17 条回复
PbCopy111
161 天前
我不知道 4090 用 48G 能干啥,但我知道 24G 的租一个月 1200 不到,这个成本可以租三年。。况且还不是 24 小时开机,所以我选择租高端 GPU ,自己买低端游戏机。
wyntalgeer
161 天前
4090D48G 这个价不如上 5090D 了,5090D 实测没有阉割,话说 4090D 也有改 48 的图什么啊,算力差好多涡轮还吵
xtreme1
161 天前
xtreme1
161 天前
typo: worse -> worst
wyntalgeer
161 天前
@xtreme1 #3 啊 B 上有 up 测的没有限制
fcten
161 天前
@wyntalgeer 帖子中已经写了,对 48G 显存没有强需求不建议上 4090 48G
wyntalgeer
161 天前
@fcten 要是 4090 48G 还将就吧,D 改 48 图什么呢算力又不行
fcten
161 天前
@PbCopy111
1. 用不到 48G 显存肯定是不值得的。
2. 租用 GPU 花了多少是实打实的。自购硬件用完后并不会一文不值。个人建议利用率 > 15% 就可以考虑自购硬件了。
fcten
161 天前
@wyntalgeer 4090d 只比 4090 低 11% 的算力
fcten
161 天前
@wyntalgeer 个人选 4090d 而没有选 4090 的原因:
1. 显存大小是刚需,算力不是。慢 11% 可以接受。
2. 4090 48g 比 4090d 48g 贵 4000~4500
3. 4090d 不能超频,都是二手核心可能会比 4090 风险小一些?当然也可能只是自我安慰 😂
tool2dx
161 天前
@PbCopy111 4090 保值,先高强度用两年再卖掉,肯定比租划算。
tool2dx
161 天前
@fcten "显存大小是刚需"

你又不不玩游戏,那你还不如买 NV 刚出来的 NVIDIA DGX Spark 迷你小电脑,显存有 128G 呢,功耗又超低,专门跑 AI 。
5sheep
161 天前
@tool2dx #12 NVIDIA DGX Spark 他的操作系统是 NVIDIA DGX™ OS 。 这个不太通用吧,市面好多 AI 工具应该装不了
5sheep
161 天前
@fcten 这个卡跑 deepseek 70b 可以吗
fcten
161 天前
@tool2dx 发布的时候还挺心动的,但是对我来说不太合适。这个机器的使用场景是推理,我有训练的需求。

另外:
1. 128G 统一内存是 LPDDR5x ,带宽只有 273 GB/s 。按带宽来估计的话,它的单机推理性能应该不如 Mac Studio 。
2. 标称 1000 TOPS 算力是 FP4 ,FP8 、FP16 、FP32 算力有多少不太清楚,猜测相当于 4070 的水平吧
3. ARM 架构,软件生态兼容性肯定不如 x86 ,有折腾的成本
4. 价格和我的整机差不多了……

不过我买了一个 jetson orin nano super 玩
fcten
161 天前
@5sheep 没试过,不过应该能跑 4bit 量化版本( ollama 默认)
我测试了 vllm 部署 Qwen2.5 72B 4bit 量化版本,限制 --max_model_len 8192 ,20 token/s
再大的模型 48G 就不够了,需要上双卡(或者用内存跑,会慢很多,不太可用的程度了)
coefu
160 天前
有钱。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1122515

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX