M3 Max 的神经引擎是否已经不够看了?

201 天前
 oppurst

从 M1 Max 开始,M 家族的 Neural Engine 就一直都是 16 核,Max 系列算力也从 11 TOPS 涨到目前的 18 TOPS ( https://www.anandtech.com/show/21116/apple-announces-m3-soc-family-m3-m3-pro-and-m3-max-make-their-marks ),不过讲真在现在这个时间节点,这点能力还是不够看啊。

毕竟隔壁高通的骁龙 X Elite 中集成的 Hexagon NPU 算力都怼到 45 TOPS 了,主打就是一个 LLM 的能力作为宣传的噱头。

这么看的话,用新的 M3 Max 来跑本地大模型似乎不怎么靠谱啊,也难怪发布会上都不咋提 ML 或 AI 能力的。所以,到底要不要换机啊,感觉下一代芯片的 AI 算力应该会得到强化,要不要再等一等...

2846 次点击
所在节点    Apple
26 条回复
orangie
201 天前
终端机器,移动设备,跑大模型,短期内我是不信的,蹭热点罢了。短期内就算浮点性能和内存够用,移动设备的电池不适合。之前吹 npu 的时候,也没见有什么终端上的智能应用能改善体验,唯一明显的就是各家都开始用模型来给相机 P 图了。
lqcc
201 天前
@xixun 这个两倍不知道苹果按什么计算的。

感兴趣可以看看这个文章: https://www.photoroom.com/inside-photoroom/core-ml-performance-benchmark-2023-edition

神经引擎跑分,A17 pro 大概比 A16 提升 16%。看看以后有没有新的消息出来。
neopenx
201 天前
ANE 需要走 CoreML 跑。18T 应该就是 FP16 的设计峰值。
要是通过 GPU 走 Metal 的话,满血 M2 Max 的 FP32 才 14T 。
苹果短期内应该不打算融合 ANE 和 GPU ,也就是维持 ANE 以低功耗优势,继续挤牙膏。
鬼知道几年后可以追平 3060 的 50T FP16 TensorFlops 设计峰值。
xinyu198736
201 天前
苹果跑大模型最大的问题是他的内存管理机制不是很可控,当大模型内存快占满的时候,内存容易被分走,导致模型迅速变慢。。
nicoljiang
200 天前
@xixun 不太相信同厂商自己的 同制程 同代际 芯片中 移动芯片某项数值能吊打桌面芯片。
LuvLetter
146 天前
@lqcc 有的应用是 memory bound, 瓶颈不在算力; ANE 这种 ASIC 不能单看核数, 还得看架构;
@nicoljiang ANE 一直都支持 int8, 没有 A17Pro 才支持 int8 的说法, 4bit 也很早就有了
https://developer.apple.com/wwdc23/10047

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/987499

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX