私有化部署 LLM 及 LVM 选型方案意见收集

兄弟们，我们公司买了 4 张 A100.现在准备部署一个 LLM 和一个 LVM 。
目前考虑
LLM:qwen3 30B ；
LVM：qwen3-vl-32B-Instruct

不知道大伙们有没有更好的建议

需求：主要还是做知识库，智能客服问答，以及 OCR 的功能

bluryar

2025 年 11 月 7 日

LVM 为什么和 LLM 是排他的，这个配置：QuantTrio/Qwen3-VL-235B-A22B-Thinking-AWQ 洒洒水

Sh1xin

2025 年 11 月 7 日

@bluryar 是的，也有考虑直接使用一个 Qwen3-VL-235B-A22B 来完成所有功能。就是不知道实际效果，而且看官方是建议 8×80GB 。现有硬件性能不足

bluryar

2025 年 11 月 7 日

1. AWQ ，最低的硬件要求除个 4 即可
2. 4 张卡都用来跑 LLM 的话，其他小模型跑在哪？

cbythe434

2025 年 11 月 7 日

单卡跑小模型，另外三张自己玩

orzsome

2025 年 11 月 7 日

借个楼问一下，如果就一张 A100 ，想要部署嵌入跟重排序，加上 LLM/LVM ，可以部署多大参数量的？如果都是 qwen3 ，是不是最多嵌入跟重排序是 0.6B ，LLM/LVM 最多是 30B int8 就是极限了，其他的显存留给并发的上下文什么的？我没有这方面的经验，请各位大佬能给一点建议

Sh1xin

2025 年 11 月 7 日

@bluryar 其他的目前只有用到一个向量模型，其他暂时没需求，一般小模型的企业内部有啥需求场景嘛，我们目前还没找到，所以没有这方面的考虑

Sh1xin

2025 年 11 月 7 日

@cbythe434 别闹哥，公司干活用的

bluryar

2025 年 11 月 7 日

@Sh1xin 没场景就随便部署一个交差

kinkin666

2025 年 11 月 7 日

我是
docker 的 xinference 跑 0.6B ，用 CPU 跑，搞意图识别词嵌入重排序够了，不能让 gpu 跑个半死 cpu 搁那抖腿
docker 的 vllm 跑大的，编程接口一致点方便些

Sh1xin

2025 年 11 月 7 日

@bluryar 现有需求场景就是三个①知识库②智能客服问答③OCR

zsj1029

2025 年 11 月 7 日

GPT oss 非常好，知识库吊打 ds ，20b 的就够用

wangmn

2025 年 11 月 7 日

现在 A100 80G 啥价格

Sh1xin

2025 年 11 月 7 日

@wangmn 公司买的，10W

coefu

2025 年 11 月 7 日

会不会不叫 LVM ，而是叫 VLM ？

coefu

2025 年 11 月 7 日

@Sh1xin #2 unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF,Q8_0-250 GB,Q8_K_XL-265 GB 。肯定够的。

bluryar

2025 年 11 月 7 日

@Sh1xin 4 张卡是全用于部署 LLM 还是需要部署包括 LLM\Embedding\Reranker 在内的所有模型？工作流复杂的情况下，你还有可能需要部署小参数的 LLM 。OCR 不知道部啥，就跑一个 MinerU 吧。

您的应用还没搭建起来其实也说不清楚需要什么样的模型。作为网友当然是建议参数越大越好。

mx2dream

2025 年 11 月 8 日

①知识库②智能客服问答③OCR 这些需求使用 30B 左右的参数有点浪费了。优先考虑总参数 100B 激活参数 10B 左右的稀疏模型高精度版，或 32B 尽量往上的稠密模型。这四张 A100 ，2 张主力跑 LLM 模型和框架，1 张用于 OCR 和向量检索嵌入，推荐先用传统 OCR 处理（比如 PaddleOCR 之类的），不推荐直接用 VLM 模型进行识别，总之尽量不要在第一步就引入 LLM 的幻觉），再搭配内外部知识库的 RAG 进行修正和降低幻觉，另外 1 张留给 KV 缓存和上下文，FlashAttention 建议打开，这东西在长上下文里对显存吞吐都有不少提升。另外，235B 有点太大了，没有多少冗余了。

你要是还有精力，还可以根据你们公司内部的专门需求折腾下 Agent 。
开始搭建好环境和框架之后，先搞几个 10B 左右的小模型测试一下，然后再换主力模型，这样稳一点。

chspy

2025 年 11 月 10 日

你可以先去提供这种服务的网站去咨询一下，比如 PPIO ，还能顺便把报价了解了。

Sh1xin

2025 年 11 月 10 日

@mx2dream 先使用传统 OCR ，再用 VLM 进行输出结果的方案。之前试过效果不好，因为部分场景下 OCR 识别结果模糊，或者表格等拆分错误。导致 VLM 也错了。不过我们的 RPA 供应商目前也在使用这种方案，不知道这是否是行业通用解决方案，有关联资料可以参考嘛？

目前我这边直接使用 qwen-2.5-vl-32B 。效果还可以。数据计算的部分由后面的 dify 代码节点完成。

当前正在测试机上测试，感谢提供指导

estrusoon

2025 年 11 月 11 日

可以考虑一下 mistral

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1171125

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.