关于 AI 模型训练,喂数据的疑问

2023-04-10 11:36:49 +08:00
 yueji
最近跟一些朋友聊天,他们总提到 自己训练模型,给 AI 喂数据,训练自己的模型.
我就挺好奇的,GPT 怎么训练自己的模型的,怎么喂数据的?
不是只能直接用吗??
1089 次点击
所在节点    问与答
5 条回复
NoOneNoBody
2023-04-10 11:40:57 +08:00
跟它辩论
kop1989smurf
2023-04-10 11:49:58 +08:00
如果只限定于 GPT 的话,可以使用 Embedding 进行向量化(相关性)微调。

如果是整个机器学习领域的话,是可以自己训练小模型(或者说干预)的。
比如 stable diffusion 的 Lora (你可以粗暴的理解为叠加在大模型上的小模型,通过权重互相影响)

如果是再小的实验性质模型,也可以从头训练,只不过个人来讲性价比太低。
像是 GPT 这种几千亿参数的模型,都是通过万分之一的小模型去预测结果从而低成本的调参、测试的。否则时间和资金成本上承受不了。

至于说到底叫不叫“喂数据”,叫不叫“训练自己的模型”,这都是名词之争,没什么必要。
luchenwei9266
2023-04-10 11:56:39 +08:00
你理解的可能跟他聊的不是同一个东西,他说的应该是 fine-tune 或者 embedding 。

大概比喻一下:外面有一只猫娘可以被大家调教,而他不屑与你们共伍(或者他觉得这个猫娘不能满足他的特定需求),所以他要自己调教出自己想要的猫娘。比如想让这个猫娘不仅会喵喵喵还会汪汪汪,所以就要给她喂狗狗的数据,让她学会汪汪汪。

比喻可能不太恰当,欢迎大佬用更好的白话来解释。。。。
yueji
2023-04-10 12:03:13 +08:00
@luchenwei9266
说是给 AI 喂数据,训练自己的模型.然后做全自动的虚拟货币交易程序.
houshuu
2023-04-10 21:39:07 +08:00
在模型不公开的情况下是无法喂数据的,官方提供 fine-tuning 服务但那是限定几个模型
现在玩的再花终究是前端上的 prompt engineering

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/931188

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX