大模型发展到当前,让我对事物的发展有一些体会

93 天前
 MidCoder
从 2016 年 AlphaGo 战胜李世石,让 AI 这个概念成为了科技的热点话题,于是 17 年阿里成立了达摩院,让大家对 AI 又有了更高的期待,但是后面大家发现 AI 还是无法被规模化的应用到各类业务场景中,更多的还是一些图像识别、搜索推荐等,达摩院的慢慢落幕也能够反应这个阶段发展趋势。这个阶段我觉得主要是两方面不满足导致 AI 无法发展起来:
1 、AI 能力本身不具备普世价值,得不到普通大众的认可,更多的是资本用来包装商业的装饰品,导致大众从 PR 听到看到的和实际体验的 AI 存在很大差别,甚至会觉得这东西有点脑残,而被 AI 深度赋能的搜索推荐,还存在隐私合规擦边的情况
2 、AI 并没有激发工程架构的配套演进,这个是基础能力不能被规模化应用的重要因素,工程架构是将某一项能力普及的关键,因为他可以填补基础能力和实际业务场景的差距,不管是理解成本、建设成本还是集成效率。

而当 2022 年 11 月 30 日 ChatGPT 问世,让普通大众第一次感受到了 AI 是智能的,甚至怀疑背后是不是有一位人类的大师,因为这个时候 AI 给到的并不是人类制定好的决策树反馈,而是可以理解非结构化的信息,并且进行思维和推理,这就具备了上面说的第一条,让大众能够觉得 AI 的存在,是一个智体的存在,而不是设定好的规则。

这个时候最先收益的是那些被称作为“AI 布道师”的网上卖课的群体,他们把 AI 包装成为人类的未来,同时也在贩卖一些 AI 对人类的焦虑,从而能够博取大家的关注,我理解这是一个新生事物被大众关注的正常策略和手段。可能他们确实具备超过常人的超前眼光,也不排除中间某些人是在跟势吃红利。

作为这个阶段 AI 的第二个受益者是大模型算法工程师,这一两年大家看到行业里面都在争夺大模型的算法大牛,比如某厂不惜竞业协议挖走另一个厂的一号位,比如某长空降某个行业大牛,又比如某厂对一些人员连升几级等等,这些算法工程师的个人身价上可能实现了几倍甚至十倍的增长。如果把 AI 当做是一个新的时代到来,这些大模型算法工程师就是在构建这个时代的基石,让大模型成为下个时代的基建,所以各大厂才会舍得去砸钱投到这些人身上。有些项目可能还是 PPT ,会由于某些 AI 大牛的加入,就可以拿到数千万美金的天使轮,因为资本是最敏锐的,他们需要把手里的资金尽快锚定新时代的资产上,从而实现资本的升值。这个阶段对于这些大模型算法工程师来说,是有一些注重个人英雄主义的,因为一个模型的成功与否,确实是会由于某一两个人决定,这个是和上个互联网时代比较大的区别。

在回看本次 AI 的变化,会发现这次 AI 的推进不单纯是学术的热点,也有实际的产品,同时更重要的是,有衍生出与 AI 配套的工程技术架构,比如早期的 openai 的 function call ,RAG 架构的演进,再到这一两年新起的 MCP ,以及衍生出了多 agent 架构,以及之上有接近产品级的应用方案,比如 dify ,还有近期比较火的 manus 、coding assistant 等,这些工程架构的进化极大的促进了 AI 走进实际生活,也让 AI 能力被普及,可以应用到千行百业。

截止当前,大模型的发展过程是符合一个新生事物发展规律的,就好比互联网、移动互联网发展起来一样,最开始都是从实验室走出来的新的技术,随着布道者去普及大众对他们的理解和认知,然后叠加工程技术架构的演进,帮助这项技术逐步发展成熟,达到应用普及。从利益受众全体上看,是呈现出喇叭状的,这个原因是,新的技术随着工程技术的演进,会降低大众参与创新的技术门槛,会引入更多的创业者参与,产生很多以 AI 为基础的应用(不管是 tob 还是 toc ),从而扩大行业的建设者,最终由于这个行业的新起,里面的参与建设的各类角色最终也都会享受这个新技术下的时代红利。

最为个体怎么看待这次大模型带来的 AI 时代?我觉得就是让自己参与进去,不要想自己能够对这个时代产生多大的价值,不管你是参与到这类的项目中,还是基于 AI 场景的应用进行创业,甚至卖课,先把自己扔到这个时代洪流中,就算随波逐流也行。因为一个时代的红利只会给到参与里面的建设者,不管你是拧螺丝定,还是造飞机大炮。

作为互联网时代的工程同学,我们应该想的更多的是针对 AI 应该构建怎样的工程技术架构。可以从场景出发去思考,比如社会中哪些是可以基于当前的 ai 能够结合的,像当前流行的 RAG 知识库解决方案,还是 dify 这种 workflow 集成体,都是针对 AI 衍生的新的工程技术架构。核心的切入点是通过工程技术填补大模型基建和社会场景的缝隙。
4110 次点击
所在节点    职场话题
33 条回复
coefu
93 天前
@xuanbg 可以给出几个解魔方解对的 demo 给机器人看,让它自己学习怎么解魔方。这是对于“大脑”泛化能力的测试。行动是对“小脑”泛化能力的测试。如果“大脑”+“小脑”都能泛化的话,说明它可以去厨房学习切菜和炒菜了。
coefu
93 天前
@MidCoder #18 我举例的场景,同时测试了随机场景下,具身智能机器人的“大脑”+“小脑”的小样本或者零样本的泛化能力,这个能力是目前厂商最缺失的。如果能做到这样,就不需要像当前一样对于每个场景都做强化学习的训练了。和你理解的仅仅在 LLM 领域里的东西,完全不同。
Machcd
93 天前
重点应该在工程,而不是被资本裹挟着一股脑去莽算法,这个思路是对的
coefu
93 天前
@MidCoder #18 给你看个去年的 paper 。https://sayplan.github.io/
MidCoder
93 天前
@coefuqin 感谢,我学习一下
coefu
93 天前
@xuanbg https://robopen.github.io/ 去年的 paper ,能泛化到未曾识别的物体做动作,但是真正能理解魔方解,然后双手解魔方,这个估计还要几年。
coefu
93 天前
@MidCoder #25 我也是今天下午搜了一下,发现 LLM+DRL ,这么看起来,好像还有点搞头。等前沿的兄弟们蹚出一条路,还可以模他们的石头,哈哈。
pkoukk
93 天前
我不觉得用所谓工程技术填平缝隙这条路是对的
就像你 LangChain 写的再好,也不如模型支持 MCP
AI 时代的交互模式应该是完全不同的,拿现有经验去搞的那些 agent 真是别扭,也一点都不好用
MidCoder
93 天前
@pkoukk 我觉得不管是 langchain 还是 MCP ,他目的是解决模型无法实时感知世界的问题,因为模型训练是离线的,训练完之后,他的知识储备和具备的推理思维范围,取决于训练时数据快照。而 function call 和 MCP 等这些架构工具,都是去将模型能力和现实业务场景结合起来,将实际场景的上下文实时给到模型,利用模型推理和理解去解决业务场景的问题
75S3CWXNN0VQ84mg
93 天前
我感觉到坚持+长期主义的意义。gpt 系列早就有了,一直被 bert 压一头。能坚持走到 3.5 ,离不开核心成员对这一方向的自信心。
coefu
92 天前
@MidCoder #25 https://arxiv.org/abs/2506.01622 LLM 和 RL 结合,目前最新的研究。
coefu
92 天前
@MidCoder #29 看我给你发的 google deepmind 6 月份最新的关于 world models 的研究。你当前的理解起码滞后了 2 年。2023 年的时候,deepmind 的 dreamer v3 ,就已经能感知世界了。https://danijar.com/ 这哥们儿真是个奇才。
littleW2B
89 天前
我觉得大模型应该类比云计算,不到工业革命的程度。还有具身智能的关注点太局限于算法或者软件了。比起智能程度,具身智能能源消耗和寿命更是问题。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1138123

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX