 |
|
mushuanl
V2EX member #183086, joined on 2016-07-21 18:46:44 +08:00
|
mushuanl's recent replies
大模型主要瓶颈在内存访问速度,直接上 mac 然后 llama.cpp, 大于 13B 的也能玩
因为 13B 简单玩几次就腻烦了,参数越高性能越好
一般应用和业务运行在 docker 或 k8s 内,主系统升级不影响
全尺寸模型,也就是 gpu 内存要求很大微调成本很高。一般就租云服务器去练习。
企业微调要求全尺寸 nv gpu ,个人玩可以用量化模型。另外现在企业微调的效果并不是很好,包括 rag(提供上下文进行推理),所以现在大模型开始有点冷了,就看看谷歌出的模型如何了。
现在开源大模型除了企业研究外其他普通人一般就用来生成 s 文和 s 聊天,功能太弱,最大的那个 180b 刚出,看看有没人调教,我体验过基本超过 gpt3.5 但是没到 gpt4, 不知道是否有人能发挥出它的性能
要跑 llama213b 那么 13900+ddr5 也够了, llama.cpp 大概 1 秒 5token ,跟得上自己的速度。但是关键是现在没有 ai 应用场景,也就是除了 gpt4 场景外 其他的比较弱,如果你不喜欢玩 roleplay ,并且没有自己的 ai 想法,那么可能过段新鲜感时间后基本就不玩了
计算力上去后大模型主要跟内存速度有关,要跑大模型并且想简单,还是建议 mac + llama.cpp, 800gb/s 速度可以直接跑 falcon 180b (得 192g 内存版本的) 个人觉得这个模型虽然微调难度大,但微调结果超过 gpt3.5