llama3 在 m3max 和 4090 推理速度

mac：14 寸 m3max 40 核 GPU ，64G
pc: 12700+4090+64G
8b 模型，mac 大概是~50tokens/s,pc 是~100tokens/s （显存吃了 5G 多一点）
70b 模型，mac 大概是 8.8tokens/s(40G 左右内存), pc 是 1.8tokens/s(显存是 23G 左右+20G 左右的内存)

70b 模型，pc 速度慢大概是因为显存不够，如果换 6000 ada 的话，同等算力目测可以到 15tokens/s 。mac70b 的速度感觉跟 chatgpt4 的速度差不多，速度上相当可用了，但是准确性和记忆力跟 gpt4 还是不能比，中文能力 llama 也比较拉胯。对个人来说本地部署完全没必要，免费的用用完全够，不够就上 gpt4 ，开源闭源差距还是不小的

另外想听听各位对于本地大语言模型在企业内(传统行业，比如制造业 [包含但不仅限于] )的应用的想法

视频版可以去
<amp-youtube data-videoid="u-gLJ3TO45o" layout="responsive" width="480" height="270"></amp-youtube>

fcten

2024 年 4 月 22 日

前两天用 m3 max 跑 qwen 72b 基本也有 9 token/s 的样子。但是目前本地跑推理并没太大用，训练又肯定不够。只能说完全没有必要因为这个理由上 m3 max 。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1034723

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.