求教 4090 的稳定运行的硬件配置,可以跑的大模型配置?

262 天前
 sjmcefc2

想求一个 4090 的配置单, 还有就是基于这个配置单,如何配置一个本地化运行的大模型呢? 感觉有点无从下手啊,需要学习哪些?目前的目标是机器装起来,本地化大模型配置起来,自己稳定的运行一下。 不知道会不会像黑苹果那样认硬件认系统啥的,求教了,感谢大家。

4380 次点击
所在节点    程序员
21 条回复
chesha1
262 天前
不会认硬件系统,大模型是一个 OS 上的应用程序的任务,当然不会对硬件有要求
深度学习任务,内存最好的显存的两倍或以上,CPU 没有要求,其实想省钱就缩一点,也是能跑的
如果你想保留未来的拓展性,最好选服务器平台支持多个 pcie 通道,因为单张 4090 也只能跑 llama-7b 这种参数最少的大模型,再往上显存就不够了


如果你是想用单张 4090 ,随便买个 4090 的游戏整机的配置都没问题,这种方案 tb 上一搜全都是,对着抄就行了
如果想用多张 4090 的服务器/工作站,可以看下 https://www.autodl.com/machine/list
或者上 tb 看 GPU 服务器的方案,当然 dell 这种大型服务器厂商也有方案的,就是会很贵
jinsongzhao
262 天前
Mate 最近开源的 7B 模型,不训练只开发测试最低 10GB 显存,双志强 48 核 CPU 。它之上还有 13B, 70B 模型,所以说没有上限,完全看跑什么模型,大家都在优化降低模型需求,比如 4bit 可以让显存降到 8GB, 转换个格式,换其他引擎跑,还能不依赖 GPU,纯 CPU 跑。以上还只是不训练。
jinsongzhao
262 天前
@chesha1 原来老看到人提到的 8k 训练就里这里头 19w 的那个呀
sjmcefc2
262 天前
@chesha1 感谢指点。就是对未来能够跑的模型不是很熟悉,现在在用 cpu 跑清华的模型,感觉就对话而言,清华模型好像并不太好,让他对比两个文件或者从文件里面计算一个生产成本,没办法计算出来。现在是想着分析年报或者成本收益调查,计算其中产品的成本信息。现在都不知道有啥好用的模型,还请大家指点
@jinsongzhao 我刚开始学习大模型,是不是不训练的话,模型就不懂行业黑话(术语)呢?现在的模型是否各有所长呢?大家都怎么选择大模型呢
lrigi
262 天前
@sjmcefc2 你这种需求先去问问 gpt4 和 gpt3.5 ,gpt4 如果能搞定开源模型才有希望,gpt4 搞不定就别指望开源模型了。除非是有专门针对某一领域微调好的模型,比如微软的数学模型
ysc3839
262 天前
sjmcefc2
262 天前
@lrigi 注册了几个号,都没封了,也不知道啥原因。其实数学用的并不多,就是用一个小学除法而已。
threebr
262 天前
24g 显存怎么跑大模型,别说训练了部署都做不到。b 站上有用 7950x CPU 跑性能达到 99%chatgpt 的一个模型,你可以搜一下。用 CPU 而不是 GPU 是因为个人电脑可以做到大内存,但做不到大显存。我电脑上就是 4090 ,只能用在绘图作曲这些地方。
threebr
262 天前
@threebr 另外用 amd 的 cpu 而不是 intel 是因为 Intel 现在没有 avx512 指令集了。当然服务器 cpu 上的 avx512 指令集更好用
gamekiller0010
262 天前
4090 的显存没办法跑大模型吧
airqj
262 天前
@threebr
@gamekiller0010
能跑量化模型的显卡不是有很多吗
cs3230524
262 天前
选 A100
chesha1
262 天前
@sjmcefc2 具体哪个模型比较好我也不清楚,不过 llama2 是现在比较火的模型
你可以看一下 hugging face 这个网站,text-generation 这个任务下面,哪些 model 比较火

要是不训练,确实大概率不懂你的行业黑化,不过如果你的行业黑话比较短,模型支持的 token 又比较多,也可以试一下直接在 prompt 里说明白。如果背景知识太多还是微调吧
zion03
262 天前
ChatGLM2-6B ,十几 G 显存就可运行。我刚组了 4090 的主机,离线大模型跑的挺快的。推理速度感觉比 GPT 3.5 快不少
zion03
262 天前
把领域知识的整个文件(比如 PDF )导入到向量数据库,利用 langchain 查询可以在一定程度上达到 finetune 模型的效果。B 站上有相关的详细分享。
quake0day
261 天前
@gamekiller0010 亲测 4090 可以跑 llma2 13b 的
sducxh
261 天前
ChatGLM2-6B 我在 3080 ( 10G )上 8bit 量化跑,速度确实快,但试用了 qwen-7b 和 baichuan-13b ,我自己的感受是 ChatGLM2-6B 也就速度和资源上的优势了。
sducxh
261 天前
@threebr 24g 怎么就不行呢,我一开始一张 3080 ,也就能跑跑 ChatGLM2-6B ,后来又加了一块,baichuan-13b 也能跑了,只能 4bit 量化~
ShadowPower
261 天前
@sjmcefc2 这个需求可以考虑用 WizardMath-70B ,我试了很多复杂的小学数学/奥数题,都比 ChatGPT 3.5 好
sjmcefc2
260 天前
@ShadowPower 还不完全是解题,主要从年报等资料里面找到计算成本相关的变量,比如营业成本 xx 元,生产量 xx 吨,
这样的数字,才能计算出来,是否 wizardmath-70b 也具备这样的提取数据能力呢?


@sducxh 这样两块显卡是怎么配置呢?

@zion03 能具体给一个链接吗?这个是不是还是利用的外部的计算能力?
@chesha1 行业黑话专业术语是否可以导入而不训练呢?比如化工领域、农业领域、会计领域的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/966795

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX