ChatGPT 其实是通用人工智能的对立面

2023-04-06 10:09:54 +08:00
 swhhaa

有一种观点认为 人脑是大量神经元组成的神经网络,经过上百万年遗传进化(类似深度学习中的训练),智力也累计量变而质变,终于实现了所谓的智能。

但我觉得如果把神经网络的训练比作人类基因的遗传进化,那神经网络就缺少人类真正学习的过程。 比如,人类学会写代码并不是遗传出来的,而是通过接受自然语言形式的知识习得写代码的功能。 我更倾向把神经网络的训练比作个人的学习过程而不是遗传进化。人类遗传进化类似神经网络的一些超参数,例如层深,层的结构..。

那么对于 ChatGPT ,很明显。它的学习只能是,在代码层接受大量数据来调参。并不能通过它向人类提供的接口而学习。你当然可以对 ChatGPT 告诉它说 "Hi, 从今天起你叫小白,我将用小白来称呼你。",它也会短暂的记住“小白“是它的名字,但它只是在将 "Hi, 从今天起你叫小白,我将用小白来称呼你。"这句话添加到了输入中,根据输入计算输出来回答你。

你不能像教一个姗姗学步的孩子一样,从 1+1=2 一直教到微积分。ChatGPT 没有长期存储模块,当然这只是一方面,其实这也解释了为什么 ChatGPT 只接受 4096 个 Token 。

我想定义一个新名词“智力”,智力是结构的体现,而不是功能的象征,其中结构是功能的元数据,不随功能而改变。智力则决定了功能的上限,也决定了学习的效率。简单来说,人的智力并不会随着学会新知识而提高。对于同一个人,刚出生的婴儿和大学教授的智力是相同的。类比到深度学习,神经网络的智力在网络结构确定时也已确定,调参只增加它的功能而不是智力。所以人类遗传进化增长的是智力,因为大脑结构已经改变了。神经网络的训练增长的是功能。

说会通用人工智能。我理想中的通用人工智能首先应该是一个单机的结构,一个人的智力并不依靠互联网。第二通用人工智能要对外暴露学习接口,自然语言形式是最好的,视觉,听觉都可以,甚至神经网络的调参接口也可以。而 ChatGPT 并没有这样的接口。(所以可以本地跑的 LLM 模型是通用人工智能吗?理论上是的,但它的智力十分低下,你教会一个孩子 1+1=2 ,只需要对他用自然语言说出来就可以,但你教会一个从零开始的 LLM ,不知道要用多少数据,训练多长时间。这就是智力决定学习的效率。)

所以一个通用人工智能可以不会写代码,不知道 1+1=2 ,甚至连自己的名字都不知道。但我不介意从零开始指导她(只要她的智力足够高)。而 ChatGPT 正在走一条相反的道路,首先利用海量的计算能力和整个互联网的数据训练一个通晓天地万物的智能机器,但你却没法指导它成为你自己的模样,它属于 OpenAI 却不是你自己。

最后我并不质疑 ChatGPT 的价值,无论商业还是科研方面,ChatGPT 都已经成功证明了自己。我只是觉得世上不应该只有 xxGPT ,通用人工智能的道路满是荆棘,但光辉却洒满大地。希望通用人工智能早日实现。

一个 AI 小白的碎碎念。(前进提要:https://www.v2ex.com/t/893146)

15842 次点击
所在节点    程序员
128 条回复
swhhaa
2023-04-07 12:33:22 +08:00
@lambdaq 你这个例子恰好说明了大脑的 cache 很小…但大脑 disk 的上限,应该有论文在研究。
swhhaa
2023-04-07 12:50:48 +08:00
@sillydaddy 我觉得 lecun 的例子没问题,他主要是想指出学习效率的问题。

拿预训练后的模型对比未摸过方向盘的青少年当然可以。

假设现在的 ChatGPT 是预训练的模型,某个用户想传授给 gpt 一些知识,gpt 有了这些知识后可以满足自己的一些特殊需求。但用户没办法直接和 gpt 对话来传授这些知识(虽然 gpt 支持上下文,但数量也有限,我也不认为神经网络可以在 predict 的同时更新参数),只能把知识转化成各种数据走神经网络的方式去训练它。而且效率也有问题。假设 gpt 不知道什么是矩阵,只要把 矩阵的定义 这串字符告诉人,人就很容易理解什么是矩阵。但想让一个神经网络学到什么是矩阵,只能找各种例子(数据)而不是矩阵定义训练它。
sillydaddy
2023-04-07 13:11:53 +08:00
@swhhaa

你说的训练效率,确实是问题,但后面可以改进啊,大自然花了多少时间才完成这种改进啊。
我觉得 ChatGPT 的关键有 2 点:
1 是大模型的能力
2 是通过预测的方式去训练大模型,这算是一种通用的无监督训练方法。这种方法是可行的。
有了这 2 点,实现通用人工智能还差什么呢?效率是一个本质性的障碍吗,我觉得不是。

至于你说的定义和例子的区别,我尝试过教 New Bing 去数数:
「请你写一个句子,这个句子的要求是包含十一个字,必须是十一个字,不能比十一个字多,不能比十一个字少,一定是十一个字,甚至你可以不考虑语法结构,唯一的规则就是那句话必须由十一个字组成。标点符号不算字数。」

「字数不对,看起来你数数不太熟练,我来教你如何数字数。看下面的例子: “我是一个”,这句话,第一个字是“我”,标记为 1 ,紧跟着“我”的字是“是”,在前面标记 1 的基础上+1 得到标记为 2 ,那么“是”后面的字是“一”,在前面标记 2 的基础上+1 得到标记为 3 ,“一”后面是“个”,在前面标记 3 的基础上+1 得到标记为 4 ,“个”后面没有字了,所以不再标记。也即是说“我是一个”这句话的字数是 4 ,是最后一个字的标记。 明白了吗?请你数一下刚才你写的句子有几个字。」

不知道我这种算是例子还是定义。按照你说的,应该也属于例子吧。但是即使是人,通过例子学得也更快啊,是吧,至少大部分人是,你给一个干巴巴的定义,远远不如举个例子来得快。
swhhaa
2023-04-07 13:50:10 +08:00
@sillydaddy

我不知道你有没有理解我说的 ChatGPT 学习和人学习的本质区别。你尝试教 New Bing 去数数,在这过程中你给 Bing 发了一段话,这段话中既有定义又有例子(但这不重要),而且 New Bing 也根据你的要求正确给出了答案。但是 New Bing 在这个环节中只是相当于一个函数 f ,你说的话就是参数 x ,bing 的发给你的话就是 y 。y=f(x)。可无论你怎么和 bing 交流,你都得承认 f 本身是不会变的。想要 f 变化,只能是 openai 去训练,而不是你通过对话来训练。

你说的 ChatGPT 的两个关键点我承认,但我认为这两个观点不是通用人工智能的核心。

相比大模型,我更希望一个从零开始的模型,但这个模型的学习效率很高。比如我是一个数学家,某个商家推出了一款通用人工智能产品,我买了这个产品。
这个产品第一种形态就是 ChatGPT 这种,啥都懂,但又不是很精通,而且我没法改变 ChatGPT 本身。在数学方面,它可以做一些辅助性的工作而且效率很高。第二种形态就是像一个刚出生的婴儿一样,它啥的不懂,但我可以教它,而且学的很快,没多长时间就学完了大学数学,这时可以慢慢参与一些数学上的核心工作,最后它数学方面甚至可以超越数学家本身。(参考我 39 楼的回复)

预训练的大模型也许可以解决许多人的大部分需求,但没法解决一个人的全部需求,而我理解的通用人工智能可以。
neurocomputing
2023-04-07 13:54:00 +08:00
楼主几个观点错得太离谱,专业相关(医学-神经科学领域)

1.大脑的连接属性(具体的超参数)并非更多由遗传来决定,而是更多由与环境的接触来决定。
遗传只能够决定每一类细胞的行为模式,比如少突胶质细胞在各种因子比如 BDNF 的作用下,向神经元轴突迁移并形成髓鞘来增加神经元间的连接性。 换句话说,遗传的是规则,而非结构或者超参数。

2.人脑结构并非一成不变。即使不讨论婴幼儿、青少年的脑发育过程,在成年人中,脑的结构也一直在重塑。虽然神经元数量暂且认为是不能再增加,但是突触的形成和改建是很活跃的,人脑的连接结构实在不停且显著变化的。虽然脑的解剖结构是不会变的,但在亚解剖水平,变化是很大的。可以理解成,具体一项“智能”功能,仅需要很少一部分神经元参与,或具体一项学习过程,仅需要改变很细微很细微的脑网络。

3.人的智力显然会随着学习更多的知识和经验而提高。这牵扯到如何定义“智力”。如果从表观来看,将智力定义为解决某类具体问题的能力,显然知识和经验能够起到算法优化的作用,会让“计算”得到更高的效率和更好的结果。知识和经验就类似于迁移学习,就好比先训练好了一个神经网络,然后直接给它接上新的输入输出。如果从结构来看,将智力定义为“算力”,神经元间信号处理和传递的效率一直在变化,处理“计算”时纳入的神经元集群大小也在变化。在某一领域更多地训练,就可能会形成更稳健、效率更高的神经元网络。这个网络效率的“上限”是多少,如何定义和测量,就是太前沿的事情了。

4.人类的进化,在脑变得更“聪明”方面会通过什么样的方式。同第一点,改变规则。比如,某个基因突变或者基因修饰,增加了神经干细胞能够分裂的次数,最终导致神经元数量突增;比如,某个基因的改变增加了提高了突触相关蛋白表达效率,使突触形成和改建更快;比如,某个离子通道蛋白的变化,使细胞膜电位变化更快。

5.楼主一定要明白 学习过程=突触形成和突触改建的过程,这个过程就很类似于神经网络算法中的训练过程,只不过神经网络算法的数据结构太过“死板”了。
swhhaa
2023-04-07 14:09:14 +08:00
@neurocomputing

1. 这个我不懂,但我感觉我也没说大脑的连接属性由遗传决定啊?

2. 参考一下我给的定义。智力是结构的体现,而不是功能的象征,其中结构是功能的元数据,不随功能而改变。智力则决定了功能的上限,也决定了学习的效率。你说的结构单纯指物理上的结构,我说的结构更应该是一种新的定义,有一些限制的,不随功能改变的部分才属于结构。大脑的各种神经元肯定在不断变化,但也有不变的部分,正是这些不变的部分+ 输入才决定了变化的部分。

3. 智力现在也没有一个明确的定义,在文章中提到的智力仅指我给出的定义。你觉得定义为智力不可以,那也可以把它定义为 xxx ,并不影响。

4. 学习了,但不是很理解和我文章中的哪里冲突了?我感觉我并没提到这些啊?

5. 我理解 学习过程=突触形成和突触改建的过程,但是你和 ChatGPT 说话并不能改变 ChatGPT 的参数值,而和人说话却可以改变人大脑的突触形成... 参考我 104 楼的回复。
sillydaddy
2023-04-07 14:36:39 +08:00
你纠结的地方是无法通过互动来改变 ChatGPT 的参数,也就是让它继续学习。但是使用「语料」给它训练的过程,就是它在学习啊。你说训练完成后,人类与其互动就不再改变它的参数了,这个只是 OpenAI 暂时这么限定的,放开的话 ChatGPT 是可以持续学习的啊。

跟人对比的话,人从一出生,也是接收了大量的数据,比如视觉、听觉、触觉等等,去建构这个世界的模型。这个过程跟 ChatGPT 的训练过程是一样的。跟人交流的过程,也是在学习,每分每秒都是。OpenAI 只是在训练了一段时候后,就不再让 ChatGPT 继续学习了。

也许你会说即使让 ChatGPT 继续学习,它可能也无法有大的进展,毕竟与训练数据相比,与人交流的数据量太小了。这点我也觉得是,我觉得区别就在于学习效率,毕竟人脑的学习方法也不全是梯度下降吧。
ChatGPT 从开始训练到定型,使用了大量的运算,但人出生后也是啊,比较之下到底哪个的效率更高呢,很难说。但后期的话,人可以仅仅因为一句话或一件事,就改变了人生观——少量的数据导致很大的改变。这恐怕是目前的 ChatGPT 做不到的。
swhhaa
2023-04-07 14:56:00 +08:00
@sillydaddy

我觉得不是 OpenAI 限定了这种能力,而是 ChatGPT 本身就没有这种能力。神经网络的监督学习肯定是要有 label ,你和 ChatGPT 对话时并没有 label ,如果是无监督学习,它也只能学到输入那句话的本身具有的性质,并不能理解其背后的含义。另一方面来,现在开源的本地跑的 LLM ,你可以试试单纯用自然语言和它对话,它的参数是否会改变。
ONEBOYS
2023-04-07 17:04:11 +08:00
用原 po 的话说,我觉得可以焦点在,model 算是参数,还是结构的问题。
LaurelHarmon
2023-04-07 20:23:04 +08:00
说到底还是喷反向传播这种学习范式的缺陷,这种论点早就有了,却也阻止不了深度学习的巨轮滚滚向前。反向传播跟通用人工智能又不是对立的。
LaurelHarmon
2023-04-07 20:25:16 +08:00
ChatGPT 可以实现量子速读学习,人却不可能。从这一点上来说,ChatGPT 有的优越性。
swhhaa
2023-04-07 20:38:44 +08:00
@LaurelHarmon 请先读懂我的文章再评论… 你说的所谓量子速度根本不是在学习,只是执行 f(x) 的时间复杂度。
LaurelHarmon
2023-04-07 21:24:44 +08:00
@swhhaa 嗯嗯,我知道你在说啥,就是在说人脑是前向推理的时候顺便学习了,而基于深度学习的 chat gpt 在对话的时候实际上不能记住任何东西,要想学到东西必须用专门的训练过程,执行反传梯度微调参数。所以你得出了人脑的范式在实现通用人工智能上具有优越性?那我想说,chatGPT 训练过程可以一次吃下很多文档,短时间内完成参数微调更新,学到很多很多内容,而且学习效果还不错。人脑可以吗,只能说两者实现路径不同。人脑固然具有优越性(不然也不可能构建出 chat gpt ,但是 chatGPT 的范式也不是一无是处
LaurelHarmon
2023-04-07 21:40:46 +08:00
@neurocomputing 感觉楼主很民科,想的太多,懂得太少。。
swhhaa
2023-04-07 21:42:06 +08:00
@LaurelHarmon 我没否认 ChatGPT 在某些方面的优越性。毕竟神经网络设计之初本就是为了拟合函数,给人一堆特征和 label ,人脑很难判断出这个函数是什么样的,神经网络直接梯度下降什么函数都能拟合。
我承认 ChatGPT 智能,因为它 |f| 很高,但它不通用。因为它的 g(x) 很低。只有当 g(x) 提高到一定程度,人可以很方便的传授给它新知识,才能算的上通用。
swhhaa
2023-04-07 21:43:18 +08:00
@LaurelHarmon 所以我哪里说错了吗…
swhhaa
2023-04-07 21:52:04 +08:00
@LaurelHarmon 而且我不太理解你为什么觉得 ChatGPT 学习效果不错,你觉得训练 ChatGPT 消耗的能量和一个科学家从出生到死亡消耗的食物中的能量哪个大。或者 ChatGPT 的智能程度明显超过了科学家?
LaurelHarmon
2023-04-07 21:55:56 +08:00
@swhhaa 你可以去推特上加入 LeCun 战队了,他现在孤立无援。
和 GPT4 对话多了有时很恍惚,明知道对面是是台机器,但是却很像个逻辑缜密的人人,有一瞬间觉得,或许真有智能“涌现”这种东西。你不必关系他的原理,即便真的是一堆机器神经元浮点数,参数量大了之后,它就自动拥有了智能的样子。只要把你骗到了,那就说明某种程度上实现了智能,图灵测试也只纯粹关注智能的表现而压根没有关注原理。
还有,你觉得不行,你倒是给条路子,现在这种暴力拟合调参,思想比较简单,效果比较好,无非就是需要大量算力和数据,脏活累活多点而已,但是效果出奇的好。如果按照解构大脑的方式一步一步模拟,进展将会无比缓慢。
接下来这一道两年各种进展将会非常快,拭目以待吧,如果扩展到多模态,一个能听懂你指令,有嘴有耳朵有眼睛有脑子,能帮你干各种活的人工智能出来后,我不知道你还会不会觉得它实现不了 AGI 。
当然,有不同的见解也是好事,科学都是曲折前进的,只是感觉没有明晰的路子可以走,原地打转也不是办法。从个人利益最大化来说,我更愿意干点能实际见效的。
swhhaa
2023-04-07 22:22:47 +08:00
@LaurelHarmon 我就随便说点自己的想法…和 v 友们讨论讨论,不是要拉帮结派。不管怎么说,我还是希望 AGI 早日出现,现在的 ChatGPT 很难满足我的需求。有一个只属于自己的智能还是很让人兴奋的。
probe301
2023-04-07 23:27:39 +08:00
从附图能看出楼主在修正自己的认识, 认可这份严肃认真
但楼主这个表述, 实在是困惑

把 GPT 当函数 f, 把人说的话定义为 x, GPT 回答是 f(x),
那这 dx 是啥东西? 我只能理解成, 根据后面公式 x 其实指喂过的所有数据的整体, dx 是新增训练数据
可是看 ChatGPT 官方给的微调接口就会知道, 微调要求你给出有监督 x->y 数据
此时这 x 是啥形式? 以及 g(x) 的具体定义是啥?
后面 f 做加法操作, 大概定义为 f 更新自己内部状态吧

后面看不懂, 只能模糊理解为, 楼主觉得以 ChatGPT 为首的模型设计, 从根源上超参数 g 是预定的, 这种模型不灵活, 学习潜力差, 于是被迫以大量语料勤练习做为弥补, 最后让 ChatGPT 顶多学成个鹦鹉
(这里 鹦鹉 vs 乌鸦, 是朱松纯提出的比喻, 鹦鹉=不理解只会模仿, 乌鸦=主动观察思考, 并在不允许试错时一次就做对任务)


从我的理解, 楼主是认可以下观点的:

1 模型能自我迭代很重要, 最好能主动改自身参数, ChatGPT 这种上来就限死超参上限的固定模型, 其认知能力上限也是限死的, 所谓三岁看老
2 对于实现 AGI 目标, 仅凭鹦鹉模式肯定不行
3 AGI 除了输出有用结果, 还必须行为像人, 包括: 使用人类语言跟人沟通, 能被人类文化接受, 决策过程可被人理解

这里有太多可讨论话题, 包括 可否同时做训练+推理的工程实践, 对认知 /智能 /AGI 的定义, 智能是否一定具备归纳演绎溯因能力, 人类语言的局限, ... 实在过于复杂, 我自己也只想过其中一小部分
希望楼主能说明, 自己到底关心哪些讨论话题, 我感觉是 1

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/930154

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX