搞 AI 的话同样价格是 3060 12Gx2 好还是 4060Ti 16G 好？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 731 天前的主题，其中的信息可能已经有所发展或是发生改变。

研究生组里面想搞自然语言处理，大语言模型（仅推理不训练）等等。
现在 1 万每台的预算，要 N 卡还是大显存显卡只能是 3060 12Gx2 （￥ 3400 ）或者 4060Ti 16G （￥ 3500 ）
因为要正规渠道且开发票所以 2080Ti 22G 或者 P40 那些是肯定不行。
所以就想问下搞过 AI 的，两张 3060G 看似 22G 显存性价比很高，有没有什么坑，比如双卡兼容性或者不支持双卡等等
4060Ti 的话最省事，而且单卡不挑机箱电源，但是就怕 16G 显存不够用

请大佬们解答

gx2

万每台

p40

15 条回复 • 2023-09-19 02:05:48 +08:00

karatsuba

2023-09-18 16:33:57 +08:00

租

lkwfive

2023-09-18 16:36:40 +08:00

显卡容量优先于算力，去官网确认下 3060 能不能组网，能的话就选这个

Takizawa

2023-09-18 16:37:22 +08:00

还不如内存加大一点，用共享显存

wipbssl

2023-09-18 16:39:56 +08:00

说实话不如租服务器，硬要选的话可以试试 3060*2 ，用 ddp 训练应该比 4060ti 强

daweii

2023-09-18 16:43:34 +08:00 via iPhone

colab 买算力

1014982466

2023-09-18 16:52:24 +08:00

@karatsuba #1 @wipbssl #4 有没有推荐的平台？适合学生的

qqjt

2023-09-18 16:58:49 +08:00

我的话会选 4060ti ，双卡的话可能的坑更多。这俩个方案其实都只能学习性质，正儿八经训练得加钱。

JayZXu

2023-09-18 17:16:19 +08:00

大显存比多卡兼容性更好，支持项目更多

不过这两个卡 CUDA 性能都不咋地，也就入门玩玩的水平

预算不高，同样建议 colab

wipbssl

2023-09-18 17:18:47 +08:00

@1014982466 矩池云、featurize 、autodl 等等挺多的。

wipbssl

2023-09-18 17:20:01 +08:00

其实可以看看能不能和华为百度之类的合作，他们都有自己的深度学习框架，目前还在推广，给机器挺大方的

seres

2023-09-18 17:20:42 +08:00

2080Ti 魔改 22G

matchalatte

2023-09-18 17:37:58 +08:00

双卡推理目前有两种方案：
- 流水线并行：把层划分到不同 GPU 上，比方说切成前半后半，每次计算先用 gpu1 ，再用 gpu2 。好处是实现简单，缺点是推理延迟会变得很大。参考 ChatGLM 的一个多卡部署实现： https://github.com/THUDM/ChatGLM2-6B/blob/main/utils.py
- 张量并行：把每个参数切片到所有 gpu 上，每次乘法完做一个 all reduce 。这个手写修改源代码很困难。比较简单的方法是套用 deepspeed zero3 ，accelerate 库也有这个功能。参考： https://huggingface.co/docs/accelerate/usage_guides/deepspeed

如果用上 deepspeed 的话，还有个单卡多卡都可以用的方案
- deepspeed 有 cpu_offload 和 nvme_offload ，可以自动把没用到的权重下放到内存/磁盘里，再把要用的挪到显存里，这样理论上多大的模型都能跑，但是对内存和磁盘要求比较高，而且推理很慢。

需要注意的几个点：
- 双卡如果是 hf 模型，适配起来比较简单，调用 accelerate 库就可以了。但一些小众框架就很麻烦。多卡推理具体方法就是前面提到的两个。
- 3060 没有 nvlink ，双卡间通信是走内存，会很慢，而且 worker 开的多也会更吃内存。一万的预算不知道配了多少内存，跑大模型对内存的要求非常高，这个需要注意。
- 双卡需要注意主板的第二个 pcie 插槽能否跑到满速（ x16 ），如果 x8 或者 x4 会降低通信速度，本身多卡就挺吃通信的。还有些主板第二个 pcie 还会和 nvme 硬盘槽位冲突，这些都得确认一下。
- 如果你们组不止一个人用，双卡会方便一些，在必要时可以分给两个人分别干不同的事情。
- 单张 4060ti 放的下模型的情况下，推理会比两张 3060 快。3060 虽然有 12Gx2 ，但分布在不同的卡上，计算需要来回通信，在推理时通信开销往往是比计算大很多的。

不过就像前面几层说的，仅推理 colab 就比较够用。自己组服务器还有维护、配置的一些成本，包括像内存要求这些问题。建议再三考虑。

jhdxr

2023-09-18 17:55:34 +08:00

没搞过上来就像挑战双卡难度有点大。。。除非就是跑跑别人现成已经调好的

OysterQAQ

2023-09-18 17:58:15 +08:00

得加钱不然就💰全花显卡上其他另外配只报销显卡

talkischeap567

2023-09-19 02:05:48 +08:00

4090*n