llama.cpp 服务开启 embedding 是否稳定？

发现“千问”官方提供了qwen3-embedding-4b的量化版，而且是 gguf 格式。使用 Ollama 试用了一下，发现Q4_K_M的效果不错，只比0.6b大了一倍左右。

现在的问题是，部署qwen3-embedding-4b的 gguf 格式版本，生产环境（基于 CPU 推理）应该选用哪个推理服务部署？

llama.cpp
- 其 Docker 镜像体积小，内存占用也小。
- 想使用这个在生产环境部署，但是 Gemini 提到其推理功能没有问题，但其 Server 服务不够稳定。
- 不知道有没有在生产环境使用的成功案例。
Triton Server
- 其 Docker 镜像除了体积大，配置较复杂，暂时没有确定。我们生产环境也用过。
- 目前配置也没问题，剩下体积大的问题。
Ollama
- 即使集成了很多功能，但体积仍然比 Triton Server 少。
- 我们一般用于试用新模型，没在生产环境使用。
TEI
- 即 Huggingface 的 Text Embeddings Inference ，但是不支持 gguf 格式。
- 此方案不可用。

1 replies

onetown

4h 19m ago

没有用 embedding 模型, macbook 一直用 llama.cpp 跑的 qwen3.6-36b 的一个量化模型, 每天高频次使用, 目前没啥不稳定的问题, 就是风扇比较吵