使用 llama3:70b 本地化部署， 100 人左右的并发，大概需要多少块 4090 才能满足？

有没有实操过本地化部署开源 llm 的老哥？这个需要大概多少的算力？

timeance

2024-04-29 10:26:26 +08:00

你先测一下大概每秒有多少 token ，然后换算一下就大概知道了

hi2hi

2024-04-29 10:26:33 +08:00

这，为什么还想着用 4090 呢？找论坛看看，用专业卡跑

levn

2024-04-29 10:36:24 +08:00

云 gpu 服务器租一天测试一下不就知道了

kenvix

2024-04-29 11:45:44 +08:00

根据我用 VLLM 部署的结论，4090 的显存不够用

herozzm

2024-04-29 11:46:46 +08:00

最少 2 块 4090 能基本跑起来，如果是 100 并发，就不太清楚了

murmur

2024-04-29 11:47:02 +08:00

如果没有精挑的必要，建议一个公司租几个 gpt4 或者文心一言，使用成本和部署难度比自己 llama 简单太多

herozzm

2024-04-29 11:49:11 +08:00

@murmur 本地模型远比 api 省钱

iOCZS

2024-04-29 11:51:49 +08:00

100 并发。。。人很多啊

t41372

2024-04-29 12:09:46 +08:00

有那种 host 像 llama3 70b 这种开源模型的 serverless api 接口，比 open AI 的要便宜很多，速度也会比自己部署一台要快很多。我知道 groq 上面 llama3 70b 的价格是差不多每一百万个 token 0.5 刀左右的样子，不知道会不会比自部署便宜。
我记得像是 ollama 这种好象是还不支持并发的，所以很多人同时用体验可能不会太好。

echoless

2024-04-29 12:25:49 +08:00

ollama 下个版本才支持并发

lovestudykid

2024-04-29 12:31:11 +08:00

自建的话要保证并发，可能有很长闲置时间

tap91624

2024-04-29 13:12:44 +08:00

4090 没 nvlink 多卡会比单卡慢的

R4rvZ6agNVWr56V0

2024-04-29 13:15:37 +08:00

4090 跑 70B 的模型非常吃力，直接上 A100 吧

msn1983aa

2024-04-29 13:22:43 +08:00

挑战老黄的刀法？ a100 上起才行

whileFalse

2024-04-29 13:35:40 +08:00

确认是有 100 并发，还是你们有 100 个要使用的人？

Solix

2024-04-29 13:42:31 +08:00

你去换算，1 秒多少人用，大概要出多少 token ，看一下

winglight2016

2024-04-29 13:43:07 +08:00

30G 的 llm ，显存至少 40g 吧。lz 说清楚到底是 100 个用户，还是 100 个并发，如果是后者，为什么不用 gpt-4 ？毕竟，这并发量私有加自建投资太大，lz 提到 4090 ，大概率没什么 AI 经验，还是上云靠谱。

lizhisty

2024-04-29 13:45:28 +08:00

@echoless 下个版本啥时候发布啊

lizhisty

2024-04-29 13:46:18 +08:00

@lovestudykid 闲置时间是什么意思

lizhisty

2024-04-29 13:47:32 +08:00

@winglight2016 大哥，100 个并发是不是就吃力了，1 张 A100 能支持 70b 的一秒 10w token 吗

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1036641

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.