使用 llama3:70b 本地化部署, 100 人左右的并发,大概需要多少块 4090 才能满足?

2024-04-29 10:25:21 +08:00
leeum  leeum

有没有实操过本地化部署开源 llm 的老哥?这个需要大概多少的算力?

11561 次点击
所在节点   Local LLM  Local LLM
52 条回复
jwangkun
jwangkun
2024-04-30 14:59:56 +08:00
目前我用的 Quadro RTX 8000 ,并发没测过,不知道怎么压测
BQsummer
BQsummer
2024-04-30 15:22:12 +08:00
1. llama3 70b 需要 142G 显存,4090 是 24G 显存,不量化得 6 张卡,https://llm.extractum.io/list/?query=llama3 ,可以在这个网站查下大概的显存占用,8bit 量化也要 75G ,4bit 量化 40G ,4090 不合适。31L 的 llama3:70b 是“quantization
4-bit”的: https://ollama.com/library/llama3:70b
2. 显存不是重点,重点是推理速度,取决于模型、显卡、还有部署模型的服务,比如 vllm ,都会做推理优化,而且推理速度和并发不是成线性反比的,所以实际的推理速度真的只有在跑下来才知道
3. 主流生产环境部署还是 vllm 多一点,我有在 reddit 看到吐槽 ollama 并发下卡死的,虽然我也用 ollama 测试一些模型,用起来是真方便
snuglove
snuglove
2024-04-30 15:51:28 +08:00
到底是内存跑的 还是显存跑的啊 我现在用的内存跑的很好啊
robbaa
robbaa
2024-04-30 20:37:15 +08:00
@ispinfx ollama 目前是单线程模型。
ab 工具测试 10 并发 10 请求,耗时 312 秒, 没有并发可言
robbaa
robbaa
2024-04-30 20:46:15 +08:00
ab -c 10 -n 10 -p ./testchat.json -T "application/json" -H 'Content-Type: application/json' http://localhost:11434/api/chat

testchat.json 中内容
```
{
"model": "llama3:70b",
"stream": true,
"frequency_penalty": 0,
"presence_penalty": 0,
"temperature": 0.6,
"top_p": 1,
"messages": [
{
"content": "安排一个南京的 2 天的旅游攻略,用中文回答",
"role": "user"
}
]
}
```
imFu
imFu
2024-04-30 22:42:05 +08:00
@robbaa 哥们有啥能够支持并发的推理框架推荐的吗?
leeum
leeum
2024-05-01 09:16:35 +08:00
robbaa
robbaa
2024-05-01 23:22:01 +08:00
@leeum 测试版还是有问题,结果不理想。

70b
单次请求:17~20s
并行 4 ,4 个请求,4 个成功,平均 30s
并行 6 ,6 个请求,6 个成功,平均 33s
并行 8 ,8 个请求,8 个成功,平均 41s
并行 9 ,9 个请求,9 个成功,平均 130s (确实如此)
并行 10 ,10 个请求,10 个成功,平均 142s
并行 11 ,11 个请求,11 个成功,平均 150s

8b
并行 8 ,8 个请求,8 个成功,平均 14s
并行 9 ,9 个请求,6 个成功,平均 25s
并行 10 ,10 个请求,10 个成功,平均 32s
并行 11 ,11 个请求,11 个成功,平均 34s
并行 12 ,返回异常

测试多了,还会出现“话痨”现象。正常回复在 40k 左右,“话痨”状态在 380k 以上

======

@imFu 我初学状态
joetao123
joetao123
2024-05-18 15:30:14 +08:00
2 个 A6000 Ada 或者 4 张 4090 的图形工作站是否可以跑 qwen:72b 的推理?如果是微调的话,需要多少资源?哪位大神能给点建议。
wsbqdyhm
wsbqdyhm
2024-05-22 09:59:42 +08:00
@fnd 我用 m1 max 64g 部署了 llama3:70b ,感觉还可以,会比 chagtp3.5 稍慢,特别是第一次问问题的时候
g0147456g
g0147456g
355 天前
4090 估计是完全不行。4bit 量化下仍然需要 40+GB 的显存,而 4090 不支持 nvlink ,难以多卡并行
keakon
344 天前
双 4090 用 vllm 部署 qwen2:72b-int4 ,最低大概要 42GB 显存。占满 48GB 显存的情况下,32 并发下大概每秒 300 tokens 。
用 ollama 部署,大概要 40GB 显存。2 并发大概每秒 30 tokens ,再增加并发性能反而下降。
但是具体到单个请求,只有 15 tokens/s 的样子,大概是 gpt-4o 的 1/4 。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1036641

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX