ChatGPT 其实是通用人工智能的对立面

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 928 天前的主题，其中的信息可能已经有所发展或是发生改变。

有一种观点认为 人脑是大量神经元组成的神经网络，经过上百万年遗传进化(类似深度学习中的训练)，智力也累计量变而质变，终于实现了所谓的智能。

但我觉得如果把神经网络的训练比作人类基因的遗传进化，那神经网络就缺少人类真正学习的过程。比如，人类学会写代码并不是遗传出来的，而是通过接受自然语言形式的知识习得写代码的功能。我更倾向把神经网络的训练比作个人的学习过程而不是遗传进化。人类遗传进化类似神经网络的一些超参数，例如层深，层的结构..。

那么对于 ChatGPT ，很明显。它的学习只能是,在代码层接受大量数据来调参。并不能通过它向人类提供的接口而学习。你当然可以对 ChatGPT 告诉它说 "Hi, 从今天起你叫小白，我将用小白来称呼你。"，它也会短暂的记住“小白“是它的名字，但它只是在将 "Hi, 从今天起你叫小白，我将用小白来称呼你。"这句话添加到了输入中，根据输入计算输出来回答你。

你不能像教一个姗姗学步的孩子一样，从 1+1=2 一直教到微积分。ChatGPT 没有长期存储模块，当然这只是一方面，其实这也解释了为什么 ChatGPT 只接受 4096 个 Token 。

我想定义一个新名词“智力”，智力是结构的体现，而不是功能的象征，其中结构是功能的元数据，不随功能而改变。智力则决定了功能的上限，也决定了学习的效率。简单来说，人的智力并不会随着学会新知识而提高。对于同一个人，刚出生的婴儿和大学教授的智力是相同的。类比到深度学习，神经网络的智力在网络结构确定时也已确定，调参只增加它的功能而不是智力。所以人类遗传进化增长的是智力，因为大脑结构已经改变了。神经网络的训练增长的是功能。

说会通用人工智能。我理想中的通用人工智能首先应该是一个单机的结构，一个人的智力并不依靠互联网。第二通用人工智能要对外暴露学习接口，自然语言形式是最好的，视觉，听觉都可以，甚至神经网络的调参接口也可以。而 ChatGPT 并没有这样的接口。(所以可以本地跑的 LLM 模型是通用人工智能吗？理论上是的，但它的智力十分低下，你教会一个孩子 1+1=2 ，只需要对他用自然语言说出来就可以，但你教会一个从零开始的 LLM ，不知道要用多少数据，训练多长时间。这就是智力决定学习的效率。)

所以一个通用人工智能可以不会写代码，不知道 1+1=2 ，甚至连自己的名字都不知道。但我不介意从零开始指导她(只要她的智力足够高)。而 ChatGPT 正在走一条相反的道路，首先利用海量的计算能力和整个互联网的数据训练一个通晓天地万物的智能机器，但你却没法指导它成为你自己的模样，它属于 OpenAI 却不是你自己。

最后我并不质疑 ChatGPT 的价值，无论商业还是科研方面，ChatGPT 都已经成功证明了自己。我只是觉得世上不应该只有 xxGPT ，通用人工智能的道路满是荆棘，但光辉却洒满大地。希望通用人工智能早日实现。

一个 AI 小白的碎碎念。(前进提要:https://www.v2ex.com/t/893146)

第 1 条附言 · 2023-04-07 09:09:53 +08:00

鉴于文章争议很大，我希望评论的人可以列出错误的 1 ，2 ，3 点...我看到后会一一回复。

至于其它那些说本文胡说八套但又不指明哪里胡说八道的人，或者上来就给人贴标签的评论，就不回复了。

第 2 条附言 · 2023-04-07 20:13:04 +08:00

还有很多想法，懒得写了...

ChatGPT

智力

神经网络

人工智能

128 条回复 • 2024-01-02 21:36:34 +08:00

1 2

❮

❯

101

swhhaa

2023-04-07 12:33:22 +08:00 via iPhone

@lambdaq 你这个例子恰好说明了大脑的 cache 很小…但大脑 disk 的上限，应该有论文在研究。

102

swhhaa

2023-04-07 12:50:48 +08:00 via iPhone

@sillydaddy 我觉得 lecun 的例子没问题，他主要是想指出学习效率的问题。

拿预训练后的模型对比未摸过方向盘的青少年当然可以。

假设现在的 ChatGPT 是预训练的模型，某个用户想传授给 gpt 一些知识，gpt 有了这些知识后可以满足自己的一些特殊需求。但用户没办法直接和 gpt 对话来传授这些知识（虽然 gpt 支持上下文，但数量也有限，我也不认为神经网络可以在 predict 的同时更新参数），只能把知识转化成各种数据走神经网络的方式去训练它。而且效率也有问题。假设 gpt 不知道什么是矩阵，只要把矩阵的定义这串字符告诉人，人就很容易理解什么是矩阵。但想让一个神经网络学到什么是矩阵，只能找各种例子（数据）而不是矩阵定义训练它。

103

sillydaddy

2023-04-07 13:11:53 +08:00

@swhhaa

你说的训练效率，确实是问题，但后面可以改进啊，大自然花了多少时间才完成这种改进啊。
我觉得 ChatGPT 的关键有 2 点：
1 是大模型的能力
2 是通过预测的方式去训练大模型，这算是一种通用的无监督训练方法。这种方法是可行的。
有了这 2 点，实现通用人工智能还差什么呢？效率是一个本质性的障碍吗，我觉得不是。

至于你说的定义和例子的区别，我尝试过教 New Bing 去数数：
「请你写一个句子，这个句子的要求是包含十一个字，必须是十一个字，不能比十一个字多，不能比十一个字少，一定是十一个字，甚至你可以不考虑语法结构，唯一的规则就是那句话必须由十一个字组成。标点符号不算字数。」

「字数不对，看起来你数数不太熟练，我来教你如何数字数。看下面的例子： “我是一个”，这句话，第一个字是“我”，标记为 1 ，紧跟着“我”的字是“是”，在前面标记 1 的基础上+1 得到标记为 2 ，那么“是”后面的字是“一”，在前面标记 2 的基础上+1 得到标记为 3 ，“一”后面是“个”，在前面标记 3 的基础上+1 得到标记为 4 ，“个”后面没有字了，所以不再标记。也即是说“我是一个”这句话的字数是 4 ，是最后一个字的标记。明白了吗？请你数一下刚才你写的句子有几个字。」

不知道我这种算是例子还是定义。按照你说的，应该也属于例子吧。但是即使是人，通过例子学得也更快啊，是吧，至少大部分人是，你给一个干巴巴的定义，远远不如举个例子来得快。

104

swhhaa

2023-04-07 13:50:10 +08:00

@sillydaddy

我不知道你有没有理解我说的 ChatGPT 学习和人学习的本质区别。你尝试教 New Bing 去数数，在这过程中你给 Bing 发了一段话，这段话中既有定义又有例子（但这不重要），而且 New Bing 也根据你的要求正确给出了答案。但是 New Bing 在这个环节中只是相当于一个函数 f ，你说的话就是参数 x ，bing 的发给你的话就是 y 。y=f(x)。可无论你怎么和 bing 交流，你都得承认 f 本身是不会变的。想要 f 变化，只能是 openai 去训练，而不是你通过对话来训练。

你说的 ChatGPT 的两个关键点我承认，但我认为这两个观点不是通用人工智能的核心。

相比大模型，我更希望一个从零开始的模型，但这个模型的学习效率很高。比如我是一个数学家，某个商家推出了一款通用人工智能产品，我买了这个产品。
这个产品第一种形态就是 ChatGPT 这种，啥都懂，但又不是很精通，而且我没法改变 ChatGPT 本身。在数学方面，它可以做一些辅助性的工作而且效率很高。第二种形态就是像一个刚出生的婴儿一样，它啥的不懂，但我可以教它，而且学的很快，没多长时间就学完了大学数学，这时可以慢慢参与一些数学上的核心工作，最后它数学方面甚至可以超越数学家本身。（参考我 39 楼的回复）

预训练的大模型也许可以解决许多人的大部分需求，但没法解决一个人的全部需求，而我理解的通用人工智能可以。

105

neurocomputing

2023-04-07 13:54:00 +08:00

楼主几个观点错得太离谱，专业相关（医学-神经科学领域）

1.大脑的连接属性（具体的超参数）并非更多由遗传来决定，而是更多由与环境的接触来决定。
遗传只能够决定每一类细胞的行为模式，比如少突胶质细胞在各种因子比如 BDNF 的作用下，向神经元轴突迁移并形成髓鞘来增加神经元间的连接性。换句话说，遗传的是规则，而非结构或者超参数。

2.人脑结构并非一成不变。即使不讨论婴幼儿、青少年的脑发育过程，在成年人中，脑的结构也一直在重塑。虽然神经元数量暂且认为是不能再增加，但是突触的形成和改建是很活跃的，人脑的连接结构实在不停且显著变化的。虽然脑的解剖结构是不会变的，但在亚解剖水平，变化是很大的。可以理解成，具体一项“智能”功能，仅需要很少一部分神经元参与，或具体一项学习过程，仅需要改变很细微很细微的脑网络。

3.人的智力显然会随着学习更多的知识和经验而提高。这牵扯到如何定义“智力”。如果从表观来看，将智力定义为解决某类具体问题的能力，显然知识和经验能够起到算法优化的作用，会让“计算”得到更高的效率和更好的结果。知识和经验就类似于迁移学习，就好比先训练好了一个神经网络，然后直接给它接上新的输入输出。如果从结构来看，将智力定义为“算力”，神经元间信号处理和传递的效率一直在变化，处理“计算”时纳入的神经元集群大小也在变化。在某一领域更多地训练，就可能会形成更稳健、效率更高的神经元网络。这个网络效率的“上限”是多少，如何定义和测量，就是太前沿的事情了。

4.人类的进化，在脑变得更“聪明”方面会通过什么样的方式。同第一点，改变规则。比如，某个基因突变或者基因修饰，增加了神经干细胞能够分裂的次数，最终导致神经元数量突增；比如，某个基因的改变增加了提高了突触相关蛋白表达效率，使突触形成和改建更快；比如，某个离子通道蛋白的变化，使细胞膜电位变化更快。

5.楼主一定要明白学习过程=突触形成和突触改建的过程，这个过程就很类似于神经网络算法中的训练过程，只不过神经网络算法的数据结构太过“死板”了。

106

swhhaa

2023-04-07 14:09:14 +08:00

@neurocomputing

1. 这个我不懂，但我感觉我也没说大脑的连接属性由遗传决定啊？

2. 参考一下我给的定义。智力是结构的体现，而不是功能的象征，其中结构是功能的元数据，不随功能而改变。智力则决定了功能的上限，也决定了学习的效率。你说的结构单纯指物理上的结构，我说的结构更应该是一种新的定义，有一些限制的，不随功能改变的部分才属于结构。大脑的各种神经元肯定在不断变化，但也有不变的部分，正是这些不变的部分+ 输入才决定了变化的部分。

3. 智力现在也没有一个明确的定义，在文章中提到的智力仅指我给出的定义。你觉得定义为智力不可以，那也可以把它定义为 xxx ，并不影响。

4. 学习了，但不是很理解和我文章中的哪里冲突了？我感觉我并没提到这些啊？

5. 我理解学习过程=突触形成和突触改建的过程，但是你和 ChatGPT 说话并不能改变 ChatGPT 的参数值，而和人说话却可以改变人大脑的突触形成... 参考我 104 楼的回复。

107

sillydaddy

2023-04-07 14:36:39 +08:00

你纠结的地方是无法通过互动来改变 ChatGPT 的参数，也就是让它继续学习。但是使用「语料」给它训练的过程，就是它在学习啊。你说训练完成后，人类与其互动就不再改变它的参数了，这个只是 OpenAI 暂时这么限定的，放开的话 ChatGPT 是可以持续学习的啊。

跟人对比的话，人从一出生，也是接收了大量的数据，比如视觉、听觉、触觉等等，去建构这个世界的模型。这个过程跟 ChatGPT 的训练过程是一样的。跟人交流的过程，也是在学习，每分每秒都是。OpenAI 只是在训练了一段时候后，就不再让 ChatGPT 继续学习了。

也许你会说即使让 ChatGPT 继续学习，它可能也无法有大的进展，毕竟与训练数据相比，与人交流的数据量太小了。这点我也觉得是，我觉得区别就在于学习效率，毕竟人脑的学习方法也不全是梯度下降吧。
ChatGPT 从开始训练到定型，使用了大量的运算，但人出生后也是啊，比较之下到底哪个的效率更高呢，很难说。但后期的话，人可以仅仅因为一句话或一件事，就改变了人生观——少量的数据导致很大的改变。这恐怕是目前的 ChatGPT 做不到的。

108

swhhaa

2023-04-07 14:56:00 +08:00

@sillydaddy

我觉得不是 OpenAI 限定了这种能力，而是 ChatGPT 本身就没有这种能力。神经网络的监督学习肯定是要有 label ，你和 ChatGPT 对话时并没有 label ，如果是无监督学习，它也只能学到输入那句话的本身具有的性质，并不能理解其背后的含义。另一方面来，现在开源的本地跑的 LLM ，你可以试试单纯用自然语言和它对话，它的参数是否会改变。

109

ONEBOYS

2023-04-07 17:04:11 +08:00

用原 po 的话说，我觉得可以焦点在，model 算是参数，还是结构的问题。

110

LaurelHarmon

2023-04-07 20:23:04 +08:00

说到底还是喷反向传播这种学习范式的缺陷，这种论点早就有了，却也阻止不了深度学习的巨轮滚滚向前。反向传播跟通用人工智能又不是对立的。

111

LaurelHarmon

2023-04-07 20:25:16 +08:00

ChatGPT 可以实现量子速读学习，人却不可能。从这一点上来说，ChatGPT 有的优越性。

112

swhhaa

2023-04-07 20:38:44 +08:00 via iPhone

@LaurelHarmon 请先读懂我的文章再评论… 你说的所谓量子速度根本不是在学习，只是执行 f(x) 的时间复杂度。

113

LaurelHarmon

2023-04-07 21:24:44 +08:00 via Android

@swhhaa 嗯嗯，我知道你在说啥，就是在说人脑是前向推理的时候顺便学习了，而基于深度学习的 chat gpt 在对话的时候实际上不能记住任何东西，要想学到东西必须用专门的训练过程，执行反传梯度微调参数。所以你得出了人脑的范式在实现通用人工智能上具有优越性？那我想说，chatGPT 训练过程可以一次吃下很多文档，短时间内完成参数微调更新，学到很多很多内容，而且学习效果还不错。人脑可以吗，只能说两者实现路径不同。人脑固然具有优越性（不然也不可能构建出 chat gpt ，但是 chatGPT 的范式也不是一无是处

114

LaurelHarmon

2023-04-07 21:40:46 +08:00

@neurocomputing 感觉楼主很民科，想的太多，懂得太少。。

115

swhhaa

2023-04-07 21:42:06 +08:00 via iPhone

@LaurelHarmon 我没否认 ChatGPT 在某些方面的优越性。毕竟神经网络设计之初本就是为了拟合函数，给人一堆特征和 label ，人脑很难判断出这个函数是什么样的，神经网络直接梯度下降什么函数都能拟合。
我承认 ChatGPT 智能，因为它 |f| 很高，但它不通用。因为它的 g(x) 很低。只有当 g(x) 提高到一定程度，人可以很方便的传授给它新知识，才能算的上通用。

116

swhhaa

2023-04-07 21:43:18 +08:00 via iPhone

@LaurelHarmon 所以我哪里说错了吗…

117

swhhaa

2023-04-07 21:52:04 +08:00 via iPhone

@LaurelHarmon 而且我不太理解你为什么觉得 ChatGPT 学习效果不错，你觉得训练 ChatGPT 消耗的能量和一个科学家从出生到死亡消耗的食物中的能量哪个大。或者 ChatGPT 的智能程度明显超过了科学家？

118

LaurelHarmon

2023-04-07 21:55:56 +08:00

@swhhaa 你可以去推特上加入 LeCun 战队了，他现在孤立无援。
和 GPT4 对话多了有时很恍惚，明知道对面是是台机器，但是却很像个逻辑缜密的人人，有一瞬间觉得，或许真有智能“涌现”这种东西。你不必关系他的原理，即便真的是一堆机器神经元浮点数，参数量大了之后，它就自动拥有了智能的样子。只要把你骗到了，那就说明某种程度上实现了智能，图灵测试也只纯粹关注智能的表现而压根没有关注原理。
还有，你觉得不行，你倒是给条路子，现在这种暴力拟合调参，思想比较简单，效果比较好，无非就是需要大量算力和数据，脏活累活多点而已，但是效果出奇的好。如果按照解构大脑的方式一步一步模拟，进展将会无比缓慢。
接下来这一道两年各种进展将会非常快，拭目以待吧，如果扩展到多模态，一个能听懂你指令，有嘴有耳朵有眼睛有脑子，能帮你干各种活的人工智能出来后，我不知道你还会不会觉得它实现不了 AGI 。
当然，有不同的见解也是好事，科学都是曲折前进的，只是感觉没有明晰的路子可以走，原地打转也不是办法。从个人利益最大化来说，我更愿意干点能实际见效的。

119

swhhaa

2023-04-07 22:22:47 +08:00 via iPhone

@LaurelHarmon 我就随便说点自己的想法…和 v 友们讨论讨论，不是要拉帮结派。不管怎么说，我还是希望 AGI 早日出现，现在的 ChatGPT 很难满足我的需求。有一个只属于自己的智能还是很让人兴奋的。

120

probe301

2023-04-07 23:27:39 +08:00

从附图能看出楼主在修正自己的认识, 认可这份严肃认真
但楼主这个表述, 实在是困惑

把 GPT 当函数 f, 把人说的话定义为 x, GPT 回答是 f(x),
那这 dx 是啥东西? 我只能理解成, 根据后面公式 x 其实指喂过的所有数据的整体, dx 是新增训练数据
可是看 ChatGPT 官方给的微调接口就会知道, 微调要求你给出有监督 x->y 数据
此时这 x 是啥形式? 以及 g(x) 的具体定义是啥?
后面 f 做加法操作, 大概定义为 f 更新自己内部状态吧

后面看不懂, 只能模糊理解为, 楼主觉得以 ChatGPT 为首的模型设计, 从根源上超参数 g 是预定的, 这种模型不灵活, 学习潜力差, 于是被迫以大量语料勤练习做为弥补, 最后让 ChatGPT 顶多学成个鹦鹉
(这里鹦鹉 vs 乌鸦, 是朱松纯提出的比喻, 鹦鹉=不理解只会模仿, 乌鸦=主动观察思考, 并在不允许试错时一次就做对任务)

从我的理解, 楼主是认可以下观点的:

1 模型能自我迭代很重要, 最好能主动改自身参数, ChatGPT 这种上来就限死超参上限的固定模型, 其认知能力上限也是限死的, 所谓三岁看老
2 对于实现 AGI 目标, 仅凭鹦鹉模式肯定不行
3 AGI 除了输出有用结果, 还必须行为像人, 包括: 使用人类语言跟人沟通, 能被人类文化接受, 决策过程可被人理解

这里有太多可讨论话题, 包括可否同时做训练+推理的工程实践, 对认知 /智能 /AGI 的定义, 智能是否一定具备归纳演绎溯因能力, 人类语言的局限, ... 实在过于复杂, 我自己也只想过其中一小部分
希望楼主能说明, 自己到底关心哪些讨论话题, 我感觉是 1

121

Cha0s1

2023-04-07 23:37:27 +08:00

根据我的理解，LZ 理想中的 AGI 需要先有一个阶段，即几乎不具备知识，但有完备的智力，在此基础上能够仅通过必要的（和人类相当的）材料就可以完成新知识的学习。但 ChatGPT 归根结底是个语言模型，训练过程就是依靠大量语料，指望他在学习的过程中，并不学特定的知识，同时又具备人类的智力，个人觉得基本不可能。

当然，我觉得 LZ 的思路还是很有意思的，可以想象几个场景：

一个 100 年前的人穿越到现在，眼前大部分事物他可能都没见过，但当我们和他对话时，只会觉得他一无所知，但不会觉得他有智力障碍。我们能不能训练出这样一个模型，什么都不会，但什么都能学且学习成本很低？

或者降低下难度，有没有可能训练出一个“文科生”，在预训练阶段没见过任何和计算机有关的语料，然后给它几本计算机教材，它就会简单的编程了？

我认为后者是可能实现的。无论是通过 in-context 还是 fine-tune 。当然，如果仅仅通过 prompt ，你可能会说这种情况下参数没有改变，因此学习的知识其实没有内化到模型里。但目前模型的本质都是参数而已，如果你认为训练只是用知识来增加功能，而通过 in-context learning 学习又没改变参数只是把特定输入放进函数 f 再输出，这样改不改参数两头堵，那我确实想不到目前的范式下该怎么办才符合你说的学习过程。

实际上我觉得模型在训练过程中是学习到了大量语言规律和真实世界的逻辑关系的，如果你还觉得这不够“通用”，那限制大概只是来源于它认识世界只能通过语言这个单一的方式。

122

swhhaa

2023-04-08 10:03:30 +08:00 via iPhone

@probe301 手机回复。简单说下，dx 里的 x 是数据, 不是 fx 里面的 x 。关于 gx 你可以类比高斯密度函数，密度函数的值没有物理意义，但它积分后就可以表示概率。关于你说的讨论话题，更应该是 1 。但我认为不存在主动改自身结构的智能，这里的“结构“指开始接收训练数据那一刻的全部状态。比如人的大脑，在成长过程中人脑神经元物理结构确实有变化，但假设两个刚出生婴儿的大脑物理分子层面上一模一样，出生后接收的外界信息也一模一样，一段时间后我认为这两个大脑在物理层面上也是一模一样的，我说的结构就是大脑在开始接收数据前的状态。所以 agi 的核心应该是去找出这个结构让它的 gx 足够高，而不是用一个很低的 gx 训练大量数据达到一个很高的｜ f ｜。

@Cha0s1 例子很好。我先认为你说的文科生就是 fin-tune 。但是否是 fine-tune 我觉得不是核心。fine-tune 只改变 f 却不改变 g 。假设现在的 ChatGPT 就是你说的文科生，并假设它不会写代码，我要教会它写代码只通过和它对话的方式肯定是不行的，只能用梯度下降的方式。但文科生可以，你和他对话就行。梯度下降的方式有它的优点，但对人来说是一种效率很低的学习方式。

123

swhhaa

2023-04-08 10:05:28 +08:00 via iPhone

@swhhaa 另外我理解的通用和是否多模态没有任何关系，如果我能通过和 chatgpt 对话的方式教会它写代码，我也认为它是通用的。

124

probe301

2023-04-08 13:50:42 +08:00

@swhhaa

> 但我认为不存在主动改自身结构的智能，这里的“结构“指开始接收训练数据那一刻的全部状态

从实践角度, 这世上哪有啥固定不变的东西? 一个人三岁到三十岁, 脑结构怎么可能不变?
换个思路, 智能体不可以扩展自己吗? 当我想展现出 "数学智能" 时, "我+笔记小抄+文献库" 不能算个复合智能体吗?

我感觉你想表达的这个 "结构" 的含义, 其实有点像 "认知主体 (人 /动物 /硅基体) 的先天认识形式"?

> 我要教会它写代码只通过和它对话的方式肯定是不行的，只能用梯度下降的方式

这楼里之前有网友贴过论文了, 上下文学习可以看作模型的隐式微调

> 如果我能通过和 chatgpt 对话的方式教会它写代码，我也认为它是通用的

我感觉你可能低估了 ChatGPT 的能力
不知道楼主对提示词工程了解多少, 可以看看这个人的研究
https://www.zhihu.com/question/582621456/answer/2891745513
注意最后他长图里的例子, 当教给 ChatGPT 啥是 "模式 A+B" 之后 (近似理解为函数复合), ChatGPT 自动学会了模式 A+B+C
这还没完, 他做了很多实验, 一直研究到 ChatGPT 能否自己模拟自己
他的实验, 是侧重模式识别的,
你关心的是 "理解抽象定义并具体应用" (演绎式的), 这我目前没找到亮眼的例子, 找到了分享给你
当然以目前能力 "假设 chatgpt 不会写代码, 临时去教 chatgpt 写代码" 我也觉得没戏, 跟你看法一致

---

此外, 楼主似乎觉得智能体应该表现出 "训练推断没明显分界" 的特性, 我的理解是:

从最终要达成目标上, 赞同
从当前实践上, "训练+推断两阶段分离" 的好处, 要远胜过 "训练与推断融为一体" 的好处, 原因:

1 当下阶段, 分离了有利于 debug, 方便研究
2 视角拉远, "训练+推断两阶段分离" 可以模拟 "融为一体" 的效果,
你可能反驳: 以人为制定的步骤, 模拟出 "推理后把新知识内化到原模型", 不算本事
我的观点: 先用着再说, 小步前进有益于理解 AI 的行为, 也有益于理解人本身
3 方便产品设计: 也许以后 ChatGPT 可以加个 "把用户标注的问答记忆到用户私人 LoRA 里" 的功能, 融一起可就摘不出来了, 考虑到 LoRA 可叠加合作, 也许以后一边干活一边顺手训练出符合你个人代码风格的微调层, 然后把它分享给小伙伴

125

swhhaa

2023-04-08 15:22:00 +08:00

@probe301
1. 是的，这个“结构”确实玄学，我这里图方便定义成“结构”,可能就会导致难以理解。

2. 微调有价值，但我认为它的能力也是有限的。如果某个 ChatGPT 的新功能可以通过梯度下降的方式训练出来，这个功能也可以直接通过和它对话来让它实现，我才认为勉强达到了通用的门槛，当然这里还有一个效率的问题。

3. 你发的知乎我没太仔细看。同第 2 点，无论 ChatGPT 现在多强大，但肯定有不如人的地方。如果是 AGI ，直接和她对话让它学到这些和人的差距就可以，但和 ChatGPT 对话只能是微调，我觉得没法做到梯度下降训练的效果。我质疑这点主要是因为，有一次我让 ChatGPT 写一段获取日语单词中单个汉字的假名的代码，可能需求比较奇葩，互联网上的资料从没人写过类似的需求，我让它改了很多次，无论怎么教它，都写不对。我用的是 v3.5 ，不知道 v4 版本的怎么样，但即便可以写出来，也一定存在某个需求它做不到，但你又教不会它。因为只能微调。

4. 最后那段没看太懂你的意思，就不回复了。

126

swhhaa

2023-04-09 10:02:04 +08:00 via iPhone

一篇知乎上相关的问题
https://www.zhihu.com/question/581851946/

127

swhhaa

2023-04-09 10:02:42 +08:00 via iPhone

@swhhaa 这个 https://www.zhihu.com/question/581851946/answer/2949181655

128

TransAM

2024-01-02 21:36:34 +08:00 via Android

最大的错误就是： [和人脑结构一样] 和 [具有类似人脑的智能] 是个单向的推理。

和人脑结构不一样也可能具有智能。这样的例子比比皆是。

飞机没有鸟的结构照样能飞，潜水艇没有鱼的结构照样能游泳，屠宰机器没有人类双臂的结果照样能杀动物。

1 2

❮

❯