fox0001

llama.cpp 服务开启 embedding 是否稳定?

  •  
  •   fox0001 · 4h 24m ago · 165 views

    发现“千问”官方提供了qwen3-embedding-4b的量化版,而且是 gguf 格式。使用 Ollama 试用了一下,发现Q4_K_M的效果不错,只比0.6b大了一倍左右。

    现在的问题是,部署qwen3-embedding-4b的 gguf 格式版本,生产环境(基于 CPU 推理)应该选用哪个推理服务部署?

    1. llama.cpp
      • 其 Docker 镜像体积小,内存占用也小。
      • 想使用这个在生产环境部署,但是 Gemini 提到其推理功能没有问题,但其 Server 服务不够稳定。
      • 不知道有没有在生产环境使用的成功案例。
    2. Triton Server
      • 其 Docker 镜像除了体积大,配置较复杂,暂时没有确定。我们生产环境也用过。
      • 目前配置也没问题,剩下体积大的问题。
    3. Ollama
      • 即使集成了很多功能,但体积仍然比 Triton Server 少。
      • 我们一般用于试用新模型,没在生产环境使用。
    4. TEI
      • 即 Huggingface 的 Text Embeddings Inference ,但是不支持 gguf 格式。
      • 此方案不可用。
    onetown
        1
    onetown  
       4h 19m ago
    没有用 embedding 模型, macbook 一直用 llama.cpp 跑的 qwen3.6-36b 的一个量化模型, 每天高频次使用, 目前没啥不稳定的问题, 就是风扇比较吵
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4776 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 05:39 · PVG 13:39 · LAX 22:39 · JFK 01:39
    ♥ Do have faith in what you're doing.