为什么 GitHub Copilot 收费,却不给训练用的代码作者费用?

2022-06-23 18:45:59 +08:00
 zwgf

GitHub Copilot 收费是应该的,训练用的机器设备,项目的开发管理人员。这些都是成本。大家都要吃饭,所以支持 GitHub Copilot 收费!

我也仔细看了一下 Copilot 的协议,Copilot 不对建议的代码负责,其实这个也是能理解的,谁能保证代码没个 BUG ,也就是说除了 BUG 或者建议不准确以外。如果 Copilot 给的建议代码是受到知识产权保护的代码,你的项目使用受到任何问题也是和 Copilot 无关的。关系撇的很干净。这就像你在视觉中国买了一张图片,然后发现视觉中国对这张图片没有任何权利。

Copilot 的建议代码是通过官网标注的数十亿行代码训练而来的。协议中也说明了来自 Github 和使用 Copilot 的用户。然后 Copilot 就可以免费白嫖这些代码,不需要给代码作者费用。这就像你写了一本小说,然后被人拿去改拍电影,不需要给你费用一样。

Copilot 之前免费的时候我一直在用,怎么说呢,体验还算可以。因为当时是免费的,所以我觉得用了我的 github 的代码我也是可以接受的。

举个例子,你家有个果园,落的有很多树叶(这里就当对果园主没啥用)。有个人给你说想拿一些树叶回家烧火做饭用,同时他也给他邻居一些烧火做饭用。作为果园主大多数人都不会拒绝。有一天这个人有个想法,从你果园拿出来的叶子他装到麻袋里面包装一下,就坐在你家果园门口 10 刀一袋卖,买回去的人发现这些树叶上有白蚁还把家里的柴房给蛀了。这个时候买树叶的人回来还不能找这个卖树叶的评理。这个时候你这个果园主是什么想法呢?

9797 次点击
所在节点    GitHub Copilot
74 条回复
adoal
2022-06-23 21:06:14 +08:00
只有等翟天临博士动嘴才能治得住这种无良商家😄
icyalala
2022-06-23 21:30:33 +08:00
@zwgf 如果你说要付费的话,所有人都有代码在上面。你只有几个 star 的项目和人家十几万 star 项目比,你觉得应该怎么分?按情分的话你是不是反而应该给人家高质量的项目付些费用呢?你使用 Github 私有仓库,按情分你是不是也该给 Github 付些小费呢?
zwgf
2022-06-23 21:56:59 +08:00
@SuperMild
是的他不违法,只是我觉得不合理

那就比如去吃饭,吃大碗或者小碗来算费用(存储容量),或者按照碗数量(流量)都看着比较正常。但是如果是按照你吃饭速度来算费用,我是觉得很别扭。当然这不违法只要你情我愿,只要之前说清楚,一点毛病都没有。

@2218675712
感谢,我去设置一下

@yoa1q7y
嗯小张干不过 AI 是没有争议的,但小张确实可以做的非常大。这里面我觉得问题的点在,对于 Copliot 来说,这些代码算是他的主体部分,还是他的一种数据形式。我是更偏向于属于他的数据形式,所以认为需要付费。就像小张出生下来只给他看 github 他一定不可能开班授课,因为小张在可以吸收 github 上知识之前已经在数据上付费了(上学交学费,买书交书费等等)

@icyalala
这确实是一个问题,但是我觉得不影响讨论这件事。因为我觉得将来 AI 替代人类的地方会越来越多,这种事例也会越来越多,那么如何定义机器学习用到的数据是否需要给原数据人报酬。
ltkun
2022-06-23 21:57:05 +08:00
谷歌 photo 和苹果 icloud 拿来深度学习给用户免费了吗
Vegetable
2022-06-23 22:11:49 +08:00
我和同事探讨了一下这个问题。做了一个类比,觉得还挺贴切。

假如我开了一个劳务派遣公司,雇了若干个勤奋的应届生。给他们 3 年时间不干别的,就是天天背 Github 上的开源项目代码。
三年之后让他们组成一个团队,专门和别人结对编程,每个月收费 100 块钱。请问我这 100 块钱,应该拿出一部分反哺开源项目吗?

我觉得可以,但没必要。
pengtdyd
2022-06-23 22:14:51 +08:00
说的好像你的 QQ 号就属于你似的。
whileFalse
2022-06-23 22:15:58 +08:00
@zwgf 你觉得不合理你可以不用。用户用脚投票,导致百度网盘没有用户,导致百度网盘反思自己的策略,然后更改策略这才合理。

任何一个产品都不能满足所有用户的需求。他只要满足特定用户的需求就行了,比如一个喜欢上传但通常不下载的用户。说白了我觉得合理,开发者也觉得合理,你觉得不合理 你算哪根葱啊。
SuperMild
2022-06-23 22:20:12 +08:00
@zwgf

> 如果是按照你吃饭速度来算费用,我是觉得很别扭。

我很不理解,这为什么会别扭,我认为这种计算方法对消费者有益,对商家反而不利,消费者不仅不会觉得别扭,应该非常开心才对。

比如一家饭店写明:吃饭速度 1 级(快)收费 10 元,2 级(慢)收费 20 元。(具体份量不重要,我不细写了)

那么,吃得慢的人不去吃,毫无损失,而吃得快的人纷纷去吃,便宜量大。有何不好?

现实中就有餐厅试过搞大胃王活动,规定时间内吃完一定份量就可以免单,并未引起社会不满。
SunsetShimmer
2022-06-23 22:43:46 +08:00
我认为 Copilot 不能和人类类比。它是个基于人工智能的商业产品,这意味着它不能被等效成人类的劳动。Copilot 间接上出售的是算力,它通过*我没弄懂的某种算法*根据用户输入和参考信息(即被“学习”的开源代码)经过计算输出补全代码。

这个问题可以抽象成:非商业开源协议授权的代码是否允许被用于基于人工智能的间接商业化使用?这是个全新的领域,业界也尚未有定论或是标准(例如假设 Repo 里放个 robots.txt 禁止任何形式的 AI“学习”)。记得比较相似的是虚幻引擎源码不允许直接引用但可以学习技术并重新实现一遍。
vocaloid
2022-06-23 23:28:49 +08:00
我也觉得,这些开源代码应该都有不一样的开源协议,如果有的开源协议禁止了 github 进行分析代码但是它依旧分析了不知道会如何
Death
2022-06-24 00:07:39 +08:00
RealJacob
2022-06-24 00:27:47 +08:00
@zwgf 拿服务去类比房子可真有你的。这不就是你自己的一厢情愿么,其实对于 saas 产品来说,无论是百度网盘这种还是 google 网盘这种,都只是对普通用户的限制,并没有哪个更好哪个更差,只是产品的选择罢了。因为这都不是你必须要用的东西,没人逼着你用啊,免费用户甚至什么都不用付出。
你觉得限制容量更好,有网速不敏感的人觉得限制网速比限制容量更好。归根结底都是限制的免费用户的体验,告诉你交钱可以提升体验。
视频网站限制非会员看高清不是一个道理么,你有足够的网速看高清蓝光,不代表人家就要给你提供最好的服务啊
jhdxr
2022-06-24 02:17:05 +08:00
『不是说照搬的问题,而是作为 AI 公司,训练的数据最终做出的服务是付费的服务,那么这些训练数据是不是也需要给数据的作者一定的报酬,相当于稿费。』

=> 直接回答,不是。先把 copilot 放一边。一般很多 AI task 都有公开的数据集,但从没听说过啥收费之类的限制。( kaggle 上一些比赛可能会限制数据集的使用,但这在我这就不算公开数据集了)。有些数据集是作者原创的(比如自己拍的视频),那版权界定应该没有争议。那如果是收集现有资料呢?我第一个想到的是 NLP 里各种爬维基去生成的数据集。至少到目前为止,实践上也并没有听说过相关的侵权纠纷。

回归到 copilot ,目前明确是基于开源的代码去进行的训练,主流的开源协议据我所知没有一个禁止了自己成为数据集的一部分(倒不如说,如果真这么限定,那就违背了开源时自由的本意)。基于这个去训练模型乃至商业化我不认为有任何问题。潜在的风险是如果模型(在你不知情的情况下)给了一些比如 GPL 的代码,是否会传染到你自己的整个代码库,这个我认为是有争议的。( copilot 目前是把这个责任全部推给了用户——我能理解但持保留态度)


『这就像你在视觉中国买了一张图片,然后发现视觉中国对这张图片没有任何权利。』
『然后 Copilot 就可以免费白嫖这些代码,不需要给代码作者费用。这就像你写了一本小说,然后被人拿去改拍电影,不需要给你费用一样。』
再具体反驳一下这些例子。1. 当你写完代码的时候,的确如小说那样,你是有版权的。但当你选择开源协议进行了授权,你就放弃了部分权益。至少,别人去使用你的代码不需要给你钱这一点,无论是否提供商业化服务,主流的开源协议都是如此规定的。2. 如果视觉中国在卖你这个照片的时候已经明确告诉你了,这张照片来自于共有领域,但你从我这买依然是要付钱的,那我不认为这个行为有任何问题。

『这些代码被作为 AI 的数据的时候,这些数据本身就是价值,是需要给与原数据作者费用的。』
最后再强调一次,当你选择了开源协议的时候,你就放弃了部分权利!!! V2EX 上已经不是第一次出现开源者看到别人拿自己的代码去做商业化就出来发帖开喷了。如果不想这种情况发生,请不要开源。
jhdxr
2022-06-24 02:20:40 +08:00
@vocaloid 目前 github 有答复,它并没有考虑具体的 license 。

但如果真的限制这一方面的使用,我会质疑这是否依然符合开源软件的定义。
Open source licenses are licenses that comply with the Open Source Definition — in brief, they allow software to be freely used, modified, and shared.
ref: https://opensource.org/licenses

限制特定用途,我认为明显不符合『 freely used 』
slowman
2022-06-24 02:36:42 +08:00
拿用户数据训练模型是很早就有的商业模式底层了。最早一般都是生成个性化广告
这些典型场景都是以用户隐私数据为 input ,output 为厂家内部数据,比如标签集合,整体是个黑盒
也有“熊猫吃短信”这种,output 是过滤与否的逻辑

github 这次最主要的争议是模型的 input 和 output 是同构的内容,也就是从代码到代码
GitHub Copilot 这么做,个人觉得影响深远,相信以后会有更加高层次的讨论
WuSiYu
2022-06-24 04:34:53 +08:00
Copilot 这玩意本来一开始就有争议,比如它学了 GPL 的代码,然后被用来写一些别的协议的软件或者商业软件,这样看上去并不道德。同样的,对于一些版权敏感的需要 clean room 的项目,应该也是不能用 Copilot 的
sardina
2022-06-24 07:04:24 +08:00
大型开源项目是免费的
www5070504
2022-06-24 09:35:54 +08:00
2202 年了怎么还有这么多人认为免费=无责?
neptuno
2022-06-24 09:53:07 +08:00
你读了别人免费的小说,然后自己文笔好了很多,自己写小说卖钱了,你会给那本免费小说作者钱吗?
pkoukk
2022-06-24 10:06:37 +08:00
1 、被他采用了代码的项目作者可以免费试用,而且本来就是开源代码,多少家公司的代码里有开源库,也没见他们给过钱。
2 、前两天提示收费的时候,让你去 github 设置自己的使用 preference 才能继续用了啊,上面可以取消勾选,不允许它学习你的代码

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/861734

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX