系统 win11
使用
https://www.modelscope.cn/models/Intel/ollama 
设置环境变量
set ONEAPI_DEVICE_SELECTOR=level_zero:0
set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
set OLLAMA_NUM_PARALLEL=1   
start-ollama.bat
ollama run modelscope.cn/Qwen/Qwen3-14B-GGUF:Q8_0
大概十几 tokens/s ,因为我后台还开着其他东西不确定是否有影响,但是感觉显存不够,已经占用了一部分的系统内存.
|  |      1privil      144 天前 ollama ps 看一下是不是 100% GPU 你这显卡显存多大你也不说。 | 
|  |      2abc0123xyz OP @privil 忘了😂,刚刚急着洗澡 a770 16g 版本,占用待会我看下。 | 
|      3mumbler      144 天前 qwen3 30B MOE 模型不需要显卡,纯 CPU 就能跑出 10-15t/s 的速度,能力和 14B 差不多 | 
|      4w568w      144 天前 完全没必要跑 Q8_0 。Q6 到 fp16 在日常使用几乎没有差异,可以省点显存,尝试大点的模型。Q4 以下才有显著影响 | 
|      5ExplodingDragon      143 天前 显存不够回退到内存了,Q8 模型本身有 15.6G + | 
|  |      6coefu      142 天前 效果很可以了。 |