请教大模型微调

lora ，全量,dqn,继续预训练这几种微调的使用场景是什么？
functioncalling 这种能力怎么微调出来？
微调对原本能力是不是有很大影响？请大佬们指教

barbery

278 天前

第三点我试过，是很大影响，微调后部分能力增强，部分能力退化，我觉得应该是和微调的数据有关

TimePPT

278 天前

对于 2：
func-call 跟一般监督微调的过程没啥区别，难点在于数据准备：至少要求包含场景、func 定义、预期调取的 func ，预期回复等。
面向业务的 func-call 相对好做，有业务场景，人工构造一些基本就够用。
但通用 func-call 模型就需要有大量的 api 定义和场景测试数据。

但做好其实都不容易，比如函数功能相似，会出现无法精准召回等问题。
还有 input 槽位信息缺失，需要多轮收集，LLM 要知道会话状态等，都需要很多工作要做。

如果没有特殊需要，建议直接调取通用 func-call 能力的 LLM API ，或者市面上有些开源的通用 func-call 模型，自己拿来用，或者再继续微调一下适应自己业务。

rogerer

278 天前

1.全量一般没人调得动，除非你训的是非常小的模型。LoRA 做的事情是在原有模型的旁边搞一条 Pathway ，这样不用动原有模型的参数，也能让模型去适配一些特定的任务，属于是没有办法的办法。
DPN 应该是指强化学习来调整 LLM 相关的技术，这个现在叫 post-training ，用来增强模型的推理能力。

2.function call ，其实应该也能通过微调的技术来做，比如给模型一些模板奖励信号，这样更输出可能会更规整。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1112940

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.