发现“千问”官方提供了qwen3-embedding-4b的量化版,而且是 gguf 格式。使用 Ollama 试用了一下,发现Q4_K_M的效果不错,只比0.6b大了一倍左右。
现在的问题是,部署qwen3-embedding-4b的 gguf 格式版本,生产环境(基于 CPU 推理)应该选用哪个推理服务部署?
-
llama.cpp
- 其 Docker 镜像体积小,内存占用也小。
- 想使用这个在生产环境部署,但是 Gemini 提到其推理功能没有问题,但其 Server 服务不够稳定。
- 不知道有没有在生产环境使用的成功案例。
-
Triton Server
- 其 Docker 镜像除了体积大,配置较复杂,暂时没有确定。我们生产环境也用过。
- 目前配置也没问题,剩下体积大的问题。
-
Ollama
- 即使集成了很多功能,但体积仍然比 Triton Server 少。
- 我们一般用于试用新模型,没在生产环境使用。
-
TEI
- 即 Huggingface 的 Text Embeddings Inference ,但是不支持 gguf 格式。
- 此方案不可用。