私有化部署 LLM 及 LVM 选型方案意见收集

2025 年 11 月 7 日
 Sh1xin
兄弟们,我们公司买了 4 张 A100.现在准备部署一个 LLM 和一个 LVM 。
目前考虑
LLM:qwen3 30B ;
LVM:qwen3-vl-32B-Instruct

不知道大伙们有没有更好的建议

需求:主要还是做知识库,智能客服问答,以及 OCR 的功能
2566 次点击
所在节点    Local LLM
23 条回复
bluryar
2025 年 11 月 7 日
LVM 为什么和 LLM 是排他的,这个配置:QuantTrio/Qwen3-VL-235B-A22B-Thinking-AWQ 洒洒水
Sh1xin
2025 年 11 月 7 日
@bluryar 是的,也有考虑直接使用一个 Qwen3-VL-235B-A22B 来完成所有功能。就是不知道实际效果,而且看官方是建议 8×80GB 。现有硬件性能不足
bluryar
2025 年 11 月 7 日
1. AWQ ,最低的硬件要求除个 4 即可
2. 4 张卡都用来跑 LLM 的话,其他小模型跑在哪?
cbythe434
2025 年 11 月 7 日
单卡跑小模型,另外三张自己玩
orzsome
2025 年 11 月 7 日
借个楼问一下,如果就一张 A100 ,想要部署嵌入跟重排序,加上 LLM/LVM ,可以部署多大参数量的?如果都是 qwen3 ,是不是最多嵌入跟重排序是 0.6B ,LLM/LVM 最多是 30B int8 就是极限了,其他的显存留给并发的上下文什么的?我没有这方面的经验,请各位大佬能给一点建议
Sh1xin
2025 年 11 月 7 日
@bluryar 其他的目前只有用到一个向量模型,其他暂时没需求,一般小模型的企业内部有啥需求场景嘛,我们目前还没找到,所以没有这方面的考虑
Sh1xin
2025 年 11 月 7 日
@cbythe434 别闹哥,公司干活用的
bluryar
2025 年 11 月 7 日
@Sh1xin 没场景就随便部署一个交差
kinkin666
2025 年 11 月 7 日
我是
docker 的 xinference 跑 0.6B ,用 CPU 跑,搞意图识别词嵌入重排序够了,不能让 gpu 跑个半死 cpu 搁那抖腿
docker 的 vllm 跑大的,编程接口一致点方便些
Sh1xin
2025 年 11 月 7 日
@bluryar 现有需求场景就是三个①知识库②智能客服问答③OCR
zsj1029
2025 年 11 月 7 日
GPT oss 非常好,知识库吊打 ds ,20b 的就够用
wangmn
2025 年 11 月 7 日
现在 A100 80G 啥价格
Sh1xin
2025 年 11 月 7 日
@wangmn 公司买的,10W
coefu
2025 年 11 月 7 日
会不会 不叫 LVM ,而是叫 VLM ?
coefu
2025 年 11 月 7 日
@Sh1xin #2 unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF,Q8_0-250 GB,Q8_K_XL-265 GB 。 肯定够的。
bluryar
2025 年 11 月 7 日
@Sh1xin 4 张卡是全用于部署 LLM 还是需要部署包括 LLM\Embedding\Reranker 在内的所有模型?工作流复杂的情况下,你还有可能需要部署小参数的 LLM 。OCR 不知道部啥,就跑一个 MinerU 吧。

您的应用还没搭建起来其实也说不清楚需要什么样的模型。作为网友当然是建议参数越大越好。
mx2dream
2025 年 11 月 8 日
①知识库②智能客服问答③OCR 这些需求使用 30B 左右的参数有点浪费了。优先考虑总参数 100B 激活参数 10B 左右的稀疏模型高精度版,或 32B 尽量往上的稠密模型。这四张 A100 ,2 张主力跑 LLM 模型和框架,1 张用于 OCR 和向量检索嵌入,推荐先用传统 OCR 处理(比如 PaddleOCR 之类的),不推荐直接用 VLM 模型进行识别,总之尽量不要在第一步就引入 LLM 的幻觉),再搭配内外部知识库的 RAG 进行修正和降低幻觉,另外 1 张留给 KV 缓存和上下文,FlashAttention 建议打开,这东西在长上下文里对显存吞吐都有不少提升。另外,235B 有点太大了,没有多少冗余了。

你要是还有精力,还可以根据你们公司内部的专门需求折腾下 Agent 。
开始搭建好环境和框架之后,先搞几个 10B 左右的小模型测试一下,然后再换主力模型,这样稳一点。
chspy
2025 年 11 月 10 日
你可以先去提供这种服务的网站去咨询一下,比如 PPIO ,还能顺便把报价了解了。
Sh1xin
2025 年 11 月 10 日
@mx2dream 先使用传统 OCR ,再用 VLM 进行输出结果的方案。之前试过效果不好,因为部分场景下 OCR 识别结果模糊,或者表格等拆分错误。导致 VLM 也错了。不过我们的 RPA 供应商目前也在使用这种方案,不知道这是否是行业通用解决方案,有关联资料可以参考嘛?

目前我这边直接使用 qwen-2.5-vl-32B 。效果还可以。数据计算的部分由后面的 dify 代码节点完成。

当前正在测试机上测试,感谢提供指导
estrusoon
2025 年 11 月 11 日
可以考虑一下 mistral

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1171125

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX