能否禁止自己产出的内容成为 AI 的语料？

比如个人发布的博客文章和开源的代码，是否已有授权或协议能够禁止被作为 copilot/chatgpt 的训练语料？

如果没有，是否能创建一类 only for human 的著作权协议和开源协议？

听上去有些螳臂当车，但主要出于以下考虑：
1. 作者对自己创作的内容应有处置的自由
2. 不希望大公司利用个人免费分享的内容进行营利
3. 部分内容是否应该从源头上禁止 AI 获取？比如会对人的心理和生理造成损害的，带有歧视或偏见内容等等

renmu

2023-03-31 09:39:52 +08:00

你可以在 robots.txt 里标注

AI 发展太快，各种措施，监管，法律都还没出来

kop1989smurf

2023-03-31 09:42:43 +08:00

目前不能。
这也是为何 Copilot 被集体诉讼的原因。

现在的机器学习 AI 的训练材料获取、模型、生成参数、产出，都是法外之地。

popguy

2023-03-31 09:44:30 +08:00

希望有这样一种版权——可以用我的原创内容作为 AI 训练材料，但 AI 不能用于商业用途，否则按文章的 token 数计价每年给我授权费

raymanr

2023-03-31 09:56:47 +08:00

我总觉得好像不久就要有些人跳出来嚷嚷了, 你以为你是谁, 人家大公司看得上你的东西之类巴拉巴拉的.

就像某些管家在电脑翻箱倒柜, 某些 APP 在手机上传这上传那一样

ttgo

2023-03-31 10:06:29 +08:00

这种根据你的版权内容高度抽象后产出的内容，很难证明其关联性。
并且，他生成后的一段内容，可能只有 0.001%用到了你的语料，数量上也不会被定义为侵权。

jfj8848

2023-03-31 10:23:24 +08:00

感觉很难举证，训练输出后相当于洗稿？

passall

2023-03-31 10:31:12 +08:00

这个类似书评人，像樊登那样的，直接告诉你书的内容，还收钱的，也没看到会给人告。

hahastudio

2023-03-31 10:32:42 +08:00

我觉得这样的需求是真是存在的，至少到目前为止，风格是一个只有作者自己才能产出的东西，但 AI 可以学个八九不离十
之前 stable diffusion 开始的时候，也有画师反对自己的作品被加到训练集里
GitHub Copilot 出来的时候，也有人不想把自己的 code 加到训练集里

不过放到现实，GitHub Copilot 说不把私有代码加到训练集里，但结果还是加了，维权的方法难于上青天。这还是机器可以识别的版权与作者产出放在一起，对 GitHub 很容易做到的事情都会这样，更不用说是其他方面的了。

Ericcccccccc

2023-03-31 10:56:59 +08:00

连搜索引擎都可以不遵守不要爬的请求, 所以这个就更难了, 至少搜索引擎你能看见的摸得着, 用你在网络上的发言做预料训练很难被发现.

baobao1270

2023-03-31 13:07:00 +08:00

当然可以，这当然可以作为著作权声明的一部分，但是需要注意的是可能和 CC 协议之类的不兼容。
但是举证困难，即使发现别人侵权，也很难得到有力的证据。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/928667

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.