能否禁止自己产出的内容成为 AI 的语料?

2023-03-31 09:37:13 +08:00
 ampedee

比如个人发布的博客文章和开源的代码,是否已有授权或协议能够禁止被作为 copilot/chatgpt 的训练语料?

如果没有,是否能创建一类 only for human 的著作权协议和开源协议?

听上去有些螳臂当车,但主要出于以下考虑:
1. 作者对自己创作的内容应有处置的自由
2. 不希望大公司利用个人免费分享的内容进行营利
3. 部分内容是否应该从源头上禁止 AI 获取?比如会对人的心理和生理造成损害的,带有歧视或偏见内容等等

1848 次点击
所在节点    问与答
10 条回复
renmu
2023-03-31 09:39:52 +08:00
你可以在 robots.txt 里标注

AI 发展太快,各种措施,监管,法律都还没出来
kop1989smurf
2023-03-31 09:42:43 +08:00
目前不能。
这也是为何 Copilot 被集体诉讼的原因。

现在的机器学习 AI 的训练材料获取、模型、生成参数、产出,都是法外之地。
popguy
2023-03-31 09:44:30 +08:00
希望有这样一种版权——可以用我的原创内容作为 AI 训练材料,但 AI 不能用于商业用途,否则按文章的 token 数计价每年给我授权费
raymanr
2023-03-31 09:56:47 +08:00
我总觉得好像不久就要有些人跳出来嚷嚷了, 你以为你是谁, 人家大公司看得上你的东西之类巴拉巴拉的.

就像某些管家在电脑翻箱倒柜, 某些 APP 在手机上传这上传那一样
ttgo
2023-03-31 10:06:29 +08:00
这种根据你的版权内容高度抽象后产出的内容,很难证明其关联性。
并且,他生成后的一段内容,可能只有 0.001%用到了你的语料,数量上也不会被定义为侵权。
jfj8848
2023-03-31 10:23:24 +08:00
感觉很难举证,训练输出后相当于洗稿?
passall
2023-03-31 10:31:12 +08:00
这个类似书评人, 像樊登那样的,直接告诉你书的内容,还收钱的,也没看到会给人告。
hahastudio
2023-03-31 10:32:42 +08:00
我觉得这样的需求是真是存在的,至少到目前为止,风格是一个只有作者自己才能产出的东西,但 AI 可以学个八九不离十
之前 stable diffusion 开始的时候,也有画师反对自己的作品被加到训练集里
GitHub Copilot 出来的时候,也有人不想把自己的 code 加到训练集里

不过放到现实,GitHub Copilot 说不把私有代码加到训练集里,但结果还是加了,维权的方法难于上青天。这还是机器可以识别的版权与作者产出放在一起,对 GitHub 很容易做到的事情都会这样,更不用说是其他方面的了。
Ericcccccccc
2023-03-31 10:56:59 +08:00
连搜索引擎都可以不遵守不要爬的请求, 所以这个就更难了, 至少搜索引擎你能看见的摸得着, 用你在网络上的发言做预料训练很难被发现.
baobao1270
2023-03-31 13:07:00 +08:00
当然可以,这当然可以作为著作权声明的一部分,但是需要注意的是可能和 CC 协议之类的不兼容。
但是举证困难,即使发现别人侵权,也很难得到有力的证据。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/928667

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX