V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
frankyzf
V2EX  ›  OpenAI

Fine-tuning 大模型时如何训练思考过程

  •  
  •   frankyzf · 14 天前 · 444 次点击

    如果希望训练大模型对特定内容的推理能力,应该如何做?现在用 alpaca 格式的数据集进行训练,看到只有 instruction 、input 和 output 这几个 column ,没有找到合适的字段填写思考过程。希望不吝赐教,先谢谢了。下面是一个例子:

    根据北京汽车限行尾号的规则来查找某天限行尾号时多少,需要先根据用户问题中的日期找到相应时间段,再找到时间段内的限行尾号和周几的对应关系,最后根据这个日期时星期几来找到对应的限行尾号。

    4 条回复    2024-05-10 10:42:15 +08:00
    ywkk
        1
    ywkk  
       13 天前   ❤️ 1
    这个需求更适合用 gpts 吧,写好脚本和 prompt 就好了。以 gpt4 的认知能力,这种任务完全不需要再训练,你就告诉它什么时候去什么网站查什么内容,举例给它里面的内容是什么意思,然后要求输出什么格式的文本,就可以了。
    Volekingsg
        2
    Volekingsg  
       13 天前   ❤️ 1
    在 output 中给出详细推理过程的文本,or 其实可以先尝试分解问题为子步骤,然后再让 LLM 解决每个子问题
    frankyzf
        3
    frankyzf  
    OP
       13 天前
    @ywkk 谢谢回答,只能本地部署,不能用 gpt-4 , 现在尝试用的 llama-3 8b ,感觉没足够的能力所以在 fine-tuning (上面只是一个例子,实际上是训练另外一种类似的推理能力)。
    frankyzf
        4
    frankyzf  
    OP
       13 天前
    @Volekingsg 谢谢, 我尝试下分步骤。因为现在 output 有固定格式 JSON ,估计只能在 JSON 里加个类似`explain`的字段来写出详细的推理过程,不知道能不能学习到。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1130 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 22:43 · PVG 06:43 · LAX 15:43 · JFK 18:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.