想整台 macbook pro 跑 llama3 70b，请问用啥配置合适？ M3 max 128G？

nino

2024-05-09 22:15:28 +08:00

128G 可以跑起来 70b ，但是还是挺慢的，没有什么实用性，本地还是跑 8b 的合适。追求效果还是买 Groq ，DeepSeek 之类的吧。

maolon

2024-05-09 22:26:45 +08:00

接近是接近，推理和跟随用户指令上来说还是差点意思，中文能力更差点意思，另外用 groq 就可以了，个人用直接免费那一档不会超限制。

idblife

2024-05-09 22:38:25 +08:00

多谢 #1 #2 ，groq 还是不错的，哈哈

jimmy

2024-05-09 23:24:29 +08:00

MBP M2 Max 64G 跑 Llama3 8B 速度很快，效果么，没对比过不知道具体情况。

idblife

2024-05-09 23:52:19 +08:00

@jimmy #4
还是想试试 70b 的 llama3

Rorysky

2024-05-10 00:00:22 +08:00

16gb 能跑什么模型

keakon

2024-05-10 00:25:47 +08:00

@Rorysky 跑过 7B int8 的推理，每秒大概 20 tokens

uCVqn130hR86WDU8

2024-05-10 01:14:41 +08:00

你只是单纯想买台新电脑🤪

icestraw

2024-05-10 06:55:31 +08:00

我用过，得用压缩后的。q8 大概会占用 70G 的内存，只是对话的话可以正常进行。效果只能说能正常对话，想要处理点工作估计够呛。

winson030

2024-05-10 08:12:25 +08:00

好奇个人用户在本地跑这么大的模型需求点是啥？我算了下，70b 这种大模型用 api （加上解决网络问题）花的钱比自己攒机器跑要便宜很多。本地运行 llama3 8b 这种模型倒是很合适。目前我的想法是，找机会把各种大模型平台的 API 都开了（反正都是 pay as you go ），整合到 one api 里，想用哪个用哪个。本地机器跑小模型，保证输出效率

qweruiop

2024-05-10 08:35:57 +08:00

很慢。。。m3 max 128 走过。。。老老实实买 4090 吧。。。

idblife

2024-05-10 08:45:31 +08:00

@winson030 #10
本机做一些相关的实验或者小玩具，另外可以顺道换台新机器啊，哈哈

Chihaya0824

2024-05-10 09:35:27 +08:00

q4 64g 的都能跑，大概 8tokens/s ，4090 想跑还得买两个，但是会快特别多

wclebb

2024-05-10 12:39:36 +08:00

@qweruiop 4090 24G 跑不了，很多模型需要显存/内存容量大才能跑。如果我没记错，70B 24G 是跑不了的。

但 128G 勉强能跑。

volvo007

2024-05-10 13:29:53 +08:00

在等公司的 H800 计算节点下来，可能禁运影响只能买 A800 的，那也行啊，慢归慢点，显存还是 640G ，能玩好多东西

moudy

2024-05-10 13:41:55 +08:00

ipad pro 刚上 m4 ，建议观望一下下个月发布会，看看 mbp 会不会也上 m4

idblife

2024-05-10 15:21:39 +08:00

@volvo007
羡慕

jimmy

2024-05-10 21:33:49 +08:00

@idblife 试了一下，响应时间大概 20 秒，内容大概一秒钟 5 个字

wsbqdyhm

2024-05-22 14:13:54 +08:00

我用 m1max64g 跑的这个，只能说能用吧，有点慢，gpu 占用 70-80%

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1039254

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.