gpt 会不会将用户输入给他的数据用于模型训练呢?

66 天前
1637 次点击
所在节点    问与答
23 条回复
65 天前
大部分人对 LLM 训练真是一无所知。你和 GPT 的对话里,你的输入是 prompt 数据,GPT 生成的数据不会用作自己训练,prompt 数据更不会用来做 LLM 训练。最多用来做对齐工作,但是用户数据清洗困难度远比各种渠道搜集的语料库难得多。个人认为 GPT 不会用对话数据作为训练,对话数据价值低且使用难度高。
64 天前

openai 在 [Data Controls FAQ]( 中提到用户数据用于 improve and train model 相关内容,使用 train 作为关键词在该页面进行搜索,部分内容如下

1. Data controls offer you the ability to turn off chat history and easily choose whether your conversations will be used to train our models.

2. While history is disabled, new conversations won’t be used to train and improve our models

3. ChatGPT, for instance, improves by further training on the conversations people have with it, unless you choose to disable training.

4. Once you opt out, new conversations will not be used to train our models.
63 天前
@Persimmon08 我只是从理论说明,用对话数据做 LLM 训练不太可能。至于 OpenAI 使用用户数据来干什么,也许他们有其他的用途,比如做一些模型反馈、模型测试、模型对齐。但就以我经验来看也不太可能,除非 OpenAI 有非常牛逼的清洗数据能力,但这点数据对模型能力到底提高还是倒退都不一定。

