V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
abc0123xyz
V2EX  ›  Local LLM

intel 显卡跑 Qwen3-14B-GGUF:Q8_0

  •  
  •   abc0123xyz · 91 天前 · 1473 次点击
    这是一个创建于 91 天前的主题,其中的信息可能已经有所发展或是发生改变。

    系统 win11

    使用
    https://www.modelscope.cn/models/Intel/ollama

    设置环境变量
    set ONEAPI_DEVICE_SELECTOR=level_zero:0
    set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
    set OLLAMA_NUM_PARALLEL=1

    start-ollama.bat

    ollama run modelscope.cn/Qwen/Qwen3-14B-GGUF:Q8_0

    大概十几 tokens/s ,因为我后台还开着其他东西不确定是否有影响,但是感觉显存不够,已经占用了一部分的系统内存.


    6 条回复    2025-06-10 14:31:35 +08:00
    privil
        1
    privil  
       91 天前
    ollama ps 看一下是不是 100% GPU 你这显卡显存多大你也不说。
    abc0123xyz
        2
    abc0123xyz  
    OP
       91 天前
    @privil 忘了😂,刚刚急着洗澡
    a770 16g 版本,占用待会我看下。
    mumbler
        3
    mumbler  
       91 天前
    qwen3 30B MOE 模型不需要显卡,纯 CPU 就能跑出 10-15t/s 的速度,能力和 14B 差不多
    w568w
        4
    w568w  
       91 天前
    完全没必要跑 Q8_0 。Q6 到 fp16 在日常使用几乎没有差异,可以省点显存,尝试大点的模型。Q4 以下才有显著影响
    ExplodingFKL
        5
    ExplodingFKL  
       90 天前
    显存不够回退到内存了,Q8 模型本身有 15.6G +
    coefu
        6
    coefu  
       89 天前
    效果很可以了。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1298 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 23:59 · PVG 07:59 · LAX 16:59 · JFK 19:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.