m1max64g+2t 目前在跑的三个模型,还有其他推荐吗?

2024-05-25 21:40:58 +08:00
 wsbqdyhm
m1max64g+2t ,21 年 16 寸顶配那个 mbp ,目前在跑的三个模型:

文字:llama3:70b ,( llama3:8b 秒开,但这个速度肯定一般般,启动之后可以接受,gpu 占用 60-80%,内存 48-55g ,没有提示过资源不足,摸起来键盘上面有点热,但没有听到风扇声音,模型中文支持太差,效果没有 gtp4o 好,就这样)

语音:GPT-SoVITS (训练、推理都很快,但经常吞字,还有功能有点单一)

图片:sd ( 512 的图 10 多秒就出,大图或复杂点的都慢,半小时都试过,对了,安装了那个 SadTalker 视频插件,无奈在菜单栏找不到入口(插件文件夹有文件),版本不兼容还是?有其他推荐吗?)

各位,还有其他模型推荐吗?同类型或不同的都可以,谢谢。
2840 次点击
所在节点    macOS
17 条回复
eachann
2024-05-25 23:23:17 +08:00
请问一下跑这类模型的用途是什么呢?是工作相关吗?还是只是为了折腾呀?
tanrenye
2024-05-25 23:31:49 +08:00
中文模型还是看看国内的吧
wsbqdyhm
2024-05-26 01:15:57 +08:00
@eachann 兼职做自媒体的,文字类的用 gpt4o 和 llama3:70b 一起,搭配 GPT-SoVITS 语音出片很好,声音自由度高一点,不会浓浓的 ai 味道,其次需要用到大量照片素材,网络搜寻的大多有版权,用 sd 输出的,版权要求没那么高。希望可以继续优化所用的工具,去掉一些明显 ai 味道、高效以及低成本是方向。 多个纬度相互平衡,没有最好,只有更好。
uCVqn130hR86WDU8
2024-05-26 08:18:18 +08:00
llama3 可以用中文微调过的
idlerlestat
2024-05-26 09:30:06 +08:00
据说 qwen 的中文模型不错
kenshinhu
2024-05-26 10:56:03 +08:00
M2 本地跑 Mistral 还不错,phi 可以做成低推理的。
kenshinhu
2024-05-26 10:56:35 +08:00
@wsbqdyhm 可以请教一下怎样做自媒体吗?
beginor
2024-05-26 21:20:04 +08:00
64G 跑 70b 的 llama3 ,应该是 q4_k_m 量化版本的吧,我跑 q5_k_m 版本的会报错的?
wsbqdyhm
2024-05-27 07:56:15 +08:00
@beginor 就这个命令拉的,ollama run llama3:70b
怎么区别版本?
beginor
2024-05-27 10:40:17 +08:00
@wsbqdyhm ollama 只提供了 q4_0 版本的 [llama3]( https://ollama.com/library/llama3), 这个和原始模型相比,损失比较多,不推荐。

可以从 huggingface 直接下载 [meta/llama-3]( https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct) 的原始模型,自己量化, 也可以下载 [已经转换好的 gguf 文件]( https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GGUF)

一般推荐 q5_k_m 或 q4_k_m 版本的量化模型, 接近原始模型,如果配置够的话, 更建议运行 f16 版本模型 。

依据自己电脑的配置, 建议的优先级是:f32 > f16 > q5_k_m > q4_k_m > others .

另外我不玩 ollama ,ollama 虽然简单, 却隐藏了很多细节。 我玩的是 llama.cpp , 可以体会到更多的技术细节。

模型需要的内存大小大概就是模型文件的大小,量内存大小而行。64G 的 M1 Max 最多能分出 48G 内存来跑模型, 当然其它应用还要占用一些内存, 所以只能勉强运行 q4_k_m 的 70b 模型。
beginor
2024-05-27 13:10:18 +08:00
@wsbqdyhm 不好意思, 我搞错了,ollama 也提供了[各种量化版本的 llama-3 模型]( https://ollama.com/library/llama3/tags),q5_k_m 量化版本是这个 https://ollama.com/library/llama3:70b-instruct-q5_K_M , 你可以拉下来看看还能不能跑起来
yjhatfdu2
2024-05-27 17:32:03 +08:00
@beginor 大模型有 f32 ?现在训练基本都拿的 bf16/f16 来的,哪来 f32 的?
wsbqdyhm
2024-05-27 21:26:09 +08:00
@beginor #11 好的,有空试一下一个有什么区别
beginor
2024-05-27 23:23:35 +08:00
@yjhatfdu2 现在 llama.cpp 默认转出来的 gguf 就是 f32 , 以前是 f16 。
urlpha
2024-05-28 11:03:22 +08:00
感觉可以开个 AI 板块了😁
a66243766
2024-05-28 17:25:45 +08:00
先加入收藏可以一起玩,本地的情况下,其实本地跑确实资源不够,但是能感受很多技术细节
a66243766
2024-05-30 12:47:48 +08:00
@beginor 我看过 ollama 的源码了 他里面编译了 llama.cpp ,模拟了在不同设备上的部署
func InitScheduler(ctx context.Context) *Scheduler {
sched := &Scheduler{
pendingReqCh: make(chan *LlmRequest, envconfig.MaxQueuedRequests),
finishedReqCh: make(chan *LlmRequest, envconfig.MaxQueuedRequests),
expiredCh: make(chan *runnerRef, envconfig.MaxQueuedRequests),
unloadedCh: make(chan interface{}, envconfig.MaxQueuedRequests),
loaded: make(map[string]*runnerRef),
newServerFn: llm.NewLlamaServer,
getGpuFn: gpu.GetGPUInfo,
}
sched.loadFn = sched.load
return sched
}
都在 llm 包下 对于熟悉 golang 的这个框架有比较好的参考价值

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1043941

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX