LLAMA CPP 比 Ollama 快得多

最近开始逐步把 ollama 迁移到 llamacpp 了，起因是 ollama 不是所有模型都支持并行，迁移过来后发现 llamacpp 原来挺快的。

通过 llamaswap 能方便使用多个模型，前期迁移也能保留 ollama 通过 llamaswap 代理请求过去

而且 llamacpp 有很多 ollama 没有的特性，且能控制的内容更多，比如能支持更多的 embeding 方式，更控制细粒度的参数，能支持推测推理，支持 lora 等等

非常建议一试

我自己的一些 llamaswap 配置

models:
  # used for dayflow, about 2k context
  qwen3-vl:8b:
    cmd: >
      /app/llama-server --port ${PORT}
      -np 2 -cb -c 8192 -ctk q8_0 -ctv q8_0 -ngl 99  --jinja
      -hf unsloth/Qwen3-VL-8B-Instruct-GGUF:Q4_K_M --mmproj /models/qwen3-vl-8b-mmproj-F16.gguf
      -a 'qwen3-vl:8b'

  qwen3-vl-thinking:32b:
    cmd: >
      /app/llama-server --port ${PORT}
      -np 2 -cb -c 8096 -ngl 99  --jinja
      -hf unsloth/Qwen3-VL-32B-Thinking-GGUF:Q4_K_M --mmproj /models/qwen3-vl-32b-mmproj-F16.gguf
      -a 'qwen3-vl:32b'
    ttl: 360
    aliases:
    - qwen3-vl
    - qwen3-vl:32b

  gpt-oss:20b:
    cmd: /app/llama-server --port ${PORT} -hf ggml-org/gpt-oss-20b-GGUF -c 0 --jinja
    ttl: 360
    aliases:
    - gpt-oss

  qwen3-embedding:4b:
    cmd: >
      /app/llama-server --port ${PORT}
      -hf Qwen/Qwen3-Embedding-4B-GGUF:Q4_K_M
      --embedding --pooling last -ub 8192 --verbose-prompt  --jinja
    ttl: 360

  qwen3-reranker:4b:
    cmd: /app/llama-server --port ${PORT} -hf QuantFactory/Qwen3-Reranker-4B-GGUF --reranking
    ttl: 360


groups:
  always:
    persistent: true
    swap: false
    exclusive: false
    members:
    - 'qwen3-vl:8b'