intel 显卡跑 Qwen3-14B-GGUF:Q8_0

92 天前
 abc0123xyz

系统 win11

使用
https://www.modelscope.cn/models/Intel/ollama

设置环境变量
set ONEAPI_DEVICE_SELECTOR=level_zero:0
set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
set OLLAMA_NUM_PARALLEL=1

start-ollama.bat

ollama run modelscope.cn/Qwen/Qwen3-14B-GGUF:Q8_0

大概十几 tokens/s ,因为我后台还开着其他东西不确定是否有影响,但是感觉显存不够,已经占用了一部分的系统内存.


1478 次点击
所在节点    Local LLM
6 条回复
privil
92 天前
ollama ps 看一下是不是 100% GPU 你这显卡显存多大你也不说。
abc0123xyz
92 天前
@privil 忘了😂,刚刚急着洗澡
a770 16g 版本,占用待会我看下。
mumbler
92 天前
qwen3 30B MOE 模型不需要显卡,纯 CPU 就能跑出 10-15t/s 的速度,能力和 14B 差不多
w568w
92 天前
完全没必要跑 Q8_0 。Q6 到 fp16 在日常使用几乎没有差异,可以省点显存,尝试大点的模型。Q4 以下才有显著影响
ExplodingFKL
91 天前
显存不够回退到内存了,Q8 模型本身有 15.6G +
coefu
90 天前
效果很可以了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1137219

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX