使用 llama3:70b 本地化部署, 100 人左右的并发,大概需要多少块 4090 才能满足?

30 天前
 leeum

有没有实操过本地化部署开源 llm 的老哥?这个需要大概多少的算力?

6239 次点击
所在节点    程序员
50 条回复
timeance
30 天前
你先测一下大概每秒有多少 token ,然后换算一下就大概知道了
hi2hi
30 天前
这,为什么还想着用 4090 呢?找论坛看看,用专业卡跑
levn
30 天前
云 gpu 服务器租一天测试一下不就知道了
kenvix
30 天前
根据我用 VLLM 部署的结论,4090 的显存不够用
herozzm
30 天前
最少 2 块 4090 能基本跑起来,如果是 100 并发,就不太清楚了
murmur
30 天前
如果没有精挑的必要,建议一个公司租几个 gpt4 或者文心一言,使用成本和部署难度比自己 llama 简单太多
herozzm
30 天前
@murmur 本地模型远比 api 省钱
iOCZS
30 天前
100 并发。。。人很多啊
t41372
30 天前
有那种 host 像 llama3 70b 这种开源模型的 serverless api 接口,比 open AI 的要便宜很多,速度也会比自己部署一台要快很多。我知道 groq 上面 llama3 70b 的价格是差不多每一百万个 token 0.5 刀左右的样子,不知道会不会比自部署便宜。
我记得像是 ollama 这种好象是还不支持并发的,所以很多人同时用体验可能不会太好。
echoless
30 天前
ollama 下个版本才支持并发
lovestudykid
30 天前
自建的话要保证并发,可能有很长闲置时间
tap91624
30 天前
4090 没 nvlink 多卡会比单卡慢的
GeekGao
30 天前
4090 跑 70B 的模型非常吃力,直接上 A100 吧
msn1983aa
30 天前
挑战老黄的刀法? a100 上起才行
whileFalse
30 天前
确认是有 100 并发,还是你们有 100 个要使用的人?
gaobh
30 天前
你去换算,1 秒多少人用,大概要出多少 token ,看一下
winglight2016
30 天前
30G 的 llm ,显存至少 40g 吧。lz 说清楚到底是 100 个用户,还是 100 个并发,如果是后者,为什么不用 gpt-4 ?毕竟,这并发量私有加自建投资太大,lz 提到 4090 ,大概率没什么 AI 经验,还是上云靠谱。
lizhisty
30 天前
@echoless 下个版本啥时候发布啊
lizhisty
30 天前
@lovestudykid 闲置时间是什么意思
lizhisty
30 天前
@winglight2016 大哥,100 个并发是不是就吃力了,1 张 A100 能支持 70b 的一秒 10w token 吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1036641

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX