intel 显卡跑 Qwen3-14B-GGUF:Q8_0

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 146 天前的主题，其中的信息可能已经有所发展或是发生改变。

系统 win11

设置环境变量
set ONEAPI_DEVICE_SELECTOR=level_zero:0
set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
set OLLAMA_NUM_PARALLEL=1

start-ollama.bat

大概十几 tokens/s ，因为我后台还开着其他东西不确定是否有影响，但是感觉显存不够，已经占用了一部分的系统内存.

6 条回复 • 2025-06-10 14:31:35 +08:00

privil

146 天前

ollama ps 看一下是不是 100% GPU 你这显卡显存多大你也不说。

abc0123xyz

146 天前

@privil 忘了😂，刚刚急着洗澡
a770 16g 版本，占用待会我看下。

mumbler

145 天前

qwen3 30B MOE 模型不需要显卡，纯 CPU 就能跑出 10-15t/s 的速度，能力和 14B 差不多

w568w

145 天前

完全没必要跑 Q8_0 。Q6 到 fp16 在日常使用几乎没有差异，可以省点显存，尝试大点的模型。Q4 以下才有显著影响

ExplodingDragon

145 天前

显存不够回退到内存了，Q8 模型本身有 15.6G +

coefu

144 天前

效果很可以了。