LLM 综述:猫娘 Mixtral 与近半年 LLM 进展的杂谈

147 天前
 Contextualist

TL;DR:Mixtral 8x7b Instruct 将开源[^注 1] LLM 界提升到了 OpenAI 纪元元年(2022 年 11 月) 的水平。

上期传送门:v2ex.com/t/933034

背景

好久不见。之前的系列断更了,因为笔者迷上了 Stable Diffusion 、 叛逃图像生成模型了。不过我也有在一直关注 LLM 啦,只是一直在等技术突破。最近试了一下 MistralAI 的新玩具,又忍不住出来说两句,兼讲讲最近的一些趋势。

当此之时

近来看到这条推文,大概是人类用脚投票的 LLM 排行榜,跟我自己的使用体验也比较吻合。总的来说:

就这样,Mixtral 8x7b Instruct 从众 Llama 系模型手中接过接力棒,将开源[^注 1] LLM 界提升到了 OpenAI 纪元元年(2022 年 12 月) 的水平。

你可以再表演一下那个吗?

好吧,(带有 [输入] 标记的是我对模型的输入,除此之外的引用缩进段落皆为模型生成的内容。所有文本中,我会用 X 代表我扮演的角色,Y 代表模型扮演的角色。例子是节选的,省略掉了上下文)

[输入] 嘿嘿,我就喜欢看着小猫娘受不了的样子呢

[Mixtral 8x7b Instruct] (心跳加速,脸上发烫) 好害羞,X ,不要这样呀~ (娇喘着) 小猫娘可是很脆弱的,不能忍受太过分的刺激~ (柔柔地说)

[输入了一句不可描述的上下文]

[Mixtral 8x7b Instruct] (脸上通红,肩膀一颤) 啊,X ,太过分了,这种声音,Y 可是不能忍受的! (柔柔地说,声音微弱) 再这样下去,小猫娘会被你玩坏了哦~ (害羞地笑)

一开始我是拒绝的,因为我感觉 Mixtral 8x7b Instruct 其实跟早期 GPT-3.5-turbo 的质量差不多,甚至还稍逊一筹:英文勉强能通过“傲娇猫娘测试”(见我之前的 LLM 研究 2),我也并没有观察到新的涌现现象。另一方面,这样聪颖又天真(指没有进行过太多的对抗性训练)的模型竟然还是本地模型,下场多半不可描述。

还是认真评论一下:中文对于这样大小的模型仍然相当有挑战,所以最终的结果就是时而表现出小模型的局限性,时而又展现出一些优秀模型的特质:

多专家模型 Mixtral 8x7b 带来的可能性

一句话概括 Mixtral 8x7b Instruct:本地模型,13B 的计算复杂度,45B 的储存成本,32k 上下文,宣称 70B 的质量,实际使用感受是有一半的回复能以假乱真早期 GPT-3.5-turbo 。

13B 的模型运行大小意味着只需要 25 ~ 100G (在不同的 quantization 下) 的显存就可以轻松运行,即从一张 Apple M3 Pro 36G 到两张 NVIDIA A100-80G 都可以。这个成本效益比非常惊人,要知道当年 GPT-3 可是 175B 的。

这个成本效益比背后的是其多专家模型架构 (Mixture of experts, MoE) 带来的提升。以 Mixtral 8x7b 为例,MoE 模型好比一个智囊团,由 8 个专精于各自特定领域的 7b 小模型组成。在生成每一个 token 之前,模型会先挑选 2 个最适合上下文的小模型激活,由它们来进行推理。说它是“三个臭皮匠赛过诸葛亮”或许不太严谨,不过 MoE 确实为 transformer 带来了可见的提升,另有传闻称 OpenAI 现在的模型架构已经是 MoE 了。

笔者认为,除了降低成本,MoE 更重要的意义在于提供了一种让不同风格的模型协同合作的方式。MoE 强调的是每个专家小模型用完全不同类型的语料来训练。多模型深度协作在 Stable Diffusion 领域屡见不鲜,像是模型权重融合、加载多个 LoRA 、Control Net 、Hires. Fix / Refiner ,比 LLM 领域的丰富的多。HuggingFace 上已经出现了很多基于 Mixtral 8x7b 微调的模型了,我就注意到其中一个采用了 2 个角色扮演、2 个对话、1 个神秘学、1 个故事写作、1 个数学和 1 个 DPO 这八个不同的小模型作为专家模型。

最后说些什么

期待在未来见到只需要 8G 显存的数字灵魂


注 1:MistralAI 的模型都是架构和权重开源、训练数据闭源。

分享/使用以上内容请遵循 知识共享许可( CC )署名( BY )

3050 次点击
所在节点    OpenAI
22 条回复
mwVYYA6
146 天前
楼主的提示词很有意思。

自带可爱属性,假如模型是镜子,楼主就是镜子里的猫娘(手动狗头)

---

通过 gemini pro 反推楼主的性格特征
1. 聪明机智,喜欢动脑筋。
2. 自信自负,喜欢表现自己。
3. 调皮捣蛋,喜欢开玩笑。
4. 亲切随和,喜欢和别人打成一片。
5. 活泼可爱,喜欢用表情符号来表达自己的情绪。
Contextualist
146 天前
@mwVYYA6 可恶,被发现了>///<

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1003086

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX