LLAMA CPP 比 Ollama 快得多

2025 年 11 月 20 日
 wenerme

最近开始逐步把 ollama 迁移到 llamacpp 了,起因是 ollama 不是所有模型都支持并行,迁移过来后发现 llamacpp 原来挺快的。

通过 llamaswap 能方便使用多个模型,前期迁移也能保留 ollama 通过 llamaswap 代理请求过去

而且 llamacpp 有很多 ollama 没有的特性,且能控制的内容更多,比如能支持更多的 embeding 方式,更控制细粒度的参数,能支持推测推理,支持 lora 等等

非常建议一试

我自己的一些 llamaswap 配置

models:
  # used for dayflow, about 2k context
  qwen3-vl:8b:
    cmd: >
      /app/llama-server --port ${PORT}
      -np 2 -cb -c 8192 -ctk q8_0 -ctv q8_0 -ngl 99  --jinja
      -hf unsloth/Qwen3-VL-8B-Instruct-GGUF:Q4_K_M --mmproj /models/qwen3-vl-8b-mmproj-F16.gguf
      -a 'qwen3-vl:8b'

  qwen3-vl-thinking:32b:
    cmd: >
      /app/llama-server --port ${PORT}
      -np 2 -cb -c 8096 -ngl 99  --jinja
      -hf unsloth/Qwen3-VL-32B-Thinking-GGUF:Q4_K_M --mmproj /models/qwen3-vl-32b-mmproj-F16.gguf
      -a 'qwen3-vl:32b'
    ttl: 360
    aliases:
    - qwen3-vl
    - qwen3-vl:32b

  gpt-oss:20b:
    cmd: /app/llama-server --port ${PORT} -hf ggml-org/gpt-oss-20b-GGUF -c 0 --jinja
    ttl: 360
    aliases:
    - gpt-oss

  qwen3-embedding:4b:
    cmd: >
      /app/llama-server --port ${PORT}
      -hf Qwen/Qwen3-Embedding-4B-GGUF:Q4_K_M
      --embedding --pooling last -ub 8192 --verbose-prompt  --jinja
    ttl: 360

  qwen3-reranker:4b:
    cmd: /app/llama-server --port ${PORT} -hf QuantFactory/Qwen3-Reranker-4B-GGUF --reranking
    ttl: 360


groups:
  always:
    persistent: true
    swap: false
    exclusive: false
    members:
    - 'qwen3-vl:8b'

5448 次点击
所在节点    程序员
22 条回复
wenyifancc
2025 年 11 月 22 日
@mooyo 100 token/s 已经不错了,硅基的 API 服务也没这么快,某些模型甚至就 30 token/s;刚才折腾本地部署 GLM-4.6-355b-a32b,速度 5 token/s 图一乐,哈哈
mooyo
2025 年 11 月 23 日
@wenyifancc #21 确实是图一乐哈哈哈,不过硅基的 API 我用 9b 模型跑翻译速度还是能接受。100token 卡的基本用不了。

其实我还有一块 4090 ,但是不确定 4090 在 linux 下能不能实现待机(未推理的时候超低功耗),不想接进去用。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1173987

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX