什么? Apple Watch 也能本地跑 Qwen 了?

9 小时 35 分钟前
 ericterminal

原谅我这个标题感觉有点骗人进来的感觉但是真做到了

某天写代码的时候我突然灵光一现,Apple Watch 可以跑 C/C++,llama.cpp 就是 C++写的,那么能不能让 Apple Watch 跑 llama.cpp 呢?

然后我花了几天努力把 llama.cpp 通过伞头文件桥接进了支持 Apple Watch 的 Swift 程序

我刚才把 Qwen3.5-0.8B-Q4_K_M.gguf 塞进了我的 Apple Watch S8 里面

能跑哦齁齁齁齁哦齁齁齁齁❤️❤️❤️❤️!!

这颗 t8301 挺耐操的,虽然速度有点感人,才 0.27token/s ,纯 CPU 算的,峰值能力应该有 iPhone6s 的八成水平

但是如果真上最新的 iPhone 的话估计可以跑到上百 token/s ,毕竟有 Metal

不要问有啥意义,之前给 iPhone 刷 MIUI 没意义不也有人干了嘛 hhhhh

我还想发 B 站或者油管,但是这个速度,怎么好让人家一眼看到功能呢哈哈哈 (遥想当年,iPhone 开机出现的那个 MI 图标)

iOS 和 watchOS 都可以用,GitHub 仓库是 https://github.com/Eric-Terminal/ETOS-LLM-Studio

1053 次点击
所在节点    Local LLM
7 条回复
afirefish
9 小时 23 分钟前
6
yiranw09
9 小时 22 分钟前
这也能赛?
qq316107934
9 小时 22 分钟前
说不定 S11 会更快,有可能破 1 token/s
ericterminal
9 小时 2 分钟前
@qq316107934 应该没那么容易,watchOS 都是 CPU 算的,S9 和 S11 是同一款芯片,官方说性能相比于 S8 的 t8301 提升 60%,那也应该才 2-3s 有 1token
qq316107934
8 小时 12 分钟前
@ericterminal #4 哦哦,我以为可以调用 TPU ,Apple 这两年 TPU 算力都是翻倍走的
rb6221
7 小时 54 分钟前
llama.cpp 一直是能跑的,我之前还打算在我的闲置 Android 机部署 gemma4 呢,后来操作了一下发现我设备是 32 位的,他只支持 64 位😅
ericterminal
4 小时 38 分钟前
@rb6221 watchOS 是一个非常神奇的架构,arm64_32 ,watchOS 特有的 ILP32 数据模型会导致 32 位指针在转换为 uint64_t 时触发编译报错,但是还好,llama.cpp 的代码质量很高,我用到的地方都是标准自适应整形 uintptr_t ,本来我还打算自己改的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1219137

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX