Air M3 24G 能不能跑不量化的 7B 本地大模型推理?

42 天前
 CatCode

无风扇:温度应该不是问题,跑几分钟,然后就可以休息一下,不会太被温度墙限制。

看了一下 ollama 上的 7B fp16 (或者 bf16 )模型,权重文件大多在 15GB~17GB 范围内,内存应该内放下,还能给别的应用留一点儿空间。 (我看到 PyTorch 的 issues 中提到加载模型过程,即使开了 mmap 也会有剧烈的内存波动,峰值内存占用会到模型权重文件的两倍大,这样的话 24G 就不够用了。不知道别的推理框架例如 ollama 有没有这个问题。)

cpu-monkey 的测试显示 M3 的 fp16 性能为 7TFLOPS ,大概桌面版 4060 Ti 的三分之一。担心即使能跑,token 输出速度也很低。

所以,有 V 友真的用 Air 跑过本地大模型吗?

2641 次点击
所在节点    MacBook Air
14 条回复
noyidoit
42 天前
用 16g 的 m1 跑过 4bit 4B 的 llama2 ,大概占用 6g 内存,但也只是能跑而已,输出巨慢
RHG
42 天前
18G 的乞丐版 M3pro 实测跑 13B 的 llama2 速度大概每秒 15token 左右,感觉用着没问题,只是这些本地模型还是不够智能
maizero
42 天前
M2PRO 32G 不知道能跑 13b 么
SakuraYuki
42 天前
能跑是能跑,但你应该也不会太想用
WuSiYu
42 天前
并不是 4060ti 的三分之一,而是二十五分之一(纯算力),n 卡跑模型都会上 tensor core ,4060ti 的 tensor core 有 177 TFLOPS ,当时受限于内存带宽实际能跑到一半就不错了
CatCode
42 天前
@WuSiYu 得看数据类型吧。比如我曾在 20 系显卡上跑 7B 模型,发现 fp16 非量化比 int8 量化的快至少一倍,因为 20 系并没有原生支持 int8 ,而原生支持了 fp16 。
wensonsmith
42 天前
M1 Pro 16G , 跑 Mistral 7b, qwen-14b 都没问题. 一点不慢。M3 应该问题不大
ShadowPower
42 天前
@CatCode 这种情况是运算性能有瓶颈,而显存带宽无瓶颈。
量化之后实际上并不会真的用量化的精度来计算,计算时都会还原到 fp16 或者 fp32 。(不同的算子好像要求不同)。

而还原到 fp16/fp32 的过程需要消耗额外的算力。
jasdkasdjkas
42 天前
不要幻想 Apple 机子跑模型了 老老实实 N 卡
WuSiYu
42 天前
@CatCode 我这里说的都是 fp16
oIMOo
41 天前
你搜下这个应用 jan.ai
里面有一些预制的模型,你可以看哪些可以跑做个参考
oIMOo
41 天前
@oIMOo #11 预置*
mumbler
41 天前
fp16 和 q5_k_m 差距几乎忽略不计,7b 只需要 5G 多内存
ozOGen
41 天前
NAME ID SIZE MODIFIED
gemma:latest 430ed3535049 5.2 GB 2 weeks ago
llama2-chinese:13b-chat 990f930d55c5 7.4 GB 2 weeks ago
qwen:14b-chat-q6_K 5967f08cc189 12 GB 2 days ago

试过这几个都在 M2 Air 24G 上跑的,无压力

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1027725

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX