关于大模型原理的感叹

2025 年 11 月 24 日
 YanSeven
有时候使用 LLM ,对于其输出,尽管看了一下科普,了解一点什么“本质上是知识压缩”,“预测下一个 token”,“概率”等等。

但是仍然觉得很神奇,大语言模型这个东西在我的感性上,觉得比图像大模型和视频大模型神奇多了。

可能就像“不会数理化,觉得什么都是魔法”一样。我不知道大模型的具体的内部逻辑。

真的是看着它的输出,觉得有点神奇。
12347 次点击
所在节点    程序员
79 条回复
thinszx
2025 年 11 月 24 日
原理其实从 bert 甚至从 lstm 、一维 cnn 起就没变过,之后 chatgpt 是量变引起质变的验证,感兴趣可以看看一维 cnn 做时序预测相关的工作就知道了
whoosy
2025 年 11 月 24 日
大模型的调参对专门研究 LLM 算法的人,也像是一个黑盒,很多时候依赖经验主义和大量的实验探索。
YanSeven
2025 年 11 月 24 日
@thinszx 这里说的“量变”到“质变”说的是“涌现”吗。但是,仍然比较好奇,怎么就涌现了,为什么会涌现。
cmdOptionKana
2025 年 11 月 24 日
确实很神奇。但也有很多人感受不到这种神奇。我就见过有些人对魔术也感受不到神奇的,他们会认为 “哦,虽然我看不破,但反正就是你用了某种方法骗我,仅此而已”。LLM 也一样,有些人会感觉“反正你们是专家,你们把这个研究出来是应该的”,甚至还会嫌弃 LLM 太笨,鄙视一番。
maplezzz
2025 年 11 月 24 日
我也觉得很神奇,能不能理解为 LLM 从训练知识里归纳出了一个参数量足够大足够多的语言推理函数,通过用户的输入和这个函数以此来预测接下来的输出
DICK23
2025 年 11 月 24 日
确实是长久的积累引起的质变。AI 概念很在就被提出了,昨天还刷到了辛顿博士一九八几年的时候演示图形识别技术的微博,确实挺震撼的
czkm1320
2025 年 11 月 24 日
目前宇宙本质是数学来着,ai 一个字一个字根据概率和相关性往外输出文字,本质都是统计学,数学算法集大成
nno
2025 年 11 月 24 日
@YanSeven
还找不到真正原因。都是些猜测,比如系统论的猜测:系统复杂性上来之后就会带来新的特性
而且说是涌现,但和真实智能还是有差距的;
dog82
2025 年 11 月 24 日
就是一个超级大型的矩阵,通过前向学习和反向传播使这个大矩阵更准确。
高等数学+线性代数就够了
risan
2025 年 11 月 24 日
你可以了解一下“涌现”,会有自己的答案的
xtreme1
2025 年 11 月 24 日
这不是前两年的日经话题么, 主流的一个观点是(我的总结不一定准确), 人类自己的"学习理解"就是在压缩信息, 即找到最短的编码方式, 而这和"预测哪个字最可能出现", 在数学上是同一回事. 相关文章可以搜索 Compression is Intelligence.
jonsmith
2025 年 11 月 24 日
AI 炼丹师,LLM 的内部逻辑是未解之谜。
meihuanyu88x
2025 年 11 月 24 日
知道了原理以后,依旧会觉得它是魔法.
sillydaddy
2025 年 11 月 24 日
你不是一个人。即使是如杨立昆或辛顿这样的行业内专家,也不理解。大模型就是一个黑盒。辛顿是这样解释 LLM 的:你把文字转为另一个空间的向量,这个向量表达了文字的各种 feature ,然后这个向量经过了 LLM 的复杂操作,输出一个同样表达各种 feature 的新向量。这就是“理解”的含义。

可以看一下 3blue1brown 相关的科普视频,****几千万次****的播放量:
<amp-youtube data-videoid="wjZofJX0v4M" layout="responsive" width="480" height="270"></amp-youtube>&list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi&index=7
IndexOutOfBounds
2025 年 11 月 24 日
@meihuanyu88x 这个同感,我自己撸了个玩具模型,过程中问了很多 Why ,依然不敢说有很透彻的了解,不过也正常可解释性目前也还只是研究方向

https://github.com/glidea/tinygpt
ShinichiYao
2025 年 11 月 24 日
你不需要知道大脑是怎么工作的,你只要照着上帝的设计把它通过电路模拟出来就行了
apkapb
2025 年 11 月 24 日
我突然想到:

0-1 是最难的,现在 AI 已经过了 0-1 了,这会导致大量的企业投入巨量资金来研究,以后肯定会越来越好的。
TabGre
2025 年 11 月 24 日
@sillydaddy 地址好像不全
cmdOptionKana
2025 年 11 月 24 日
@ShinichiYao “上帝的设计”是指什么?
LaurelHarmon
2025 年 11 月 24 日
“原理从 Bert 甚至从 lstm..没变过”这样说不对,bert 是判别模型,gpt 是生成模型,压根不是一个路子。BERT 属于走了岔路,跟当前的生成模型进步没啥关联。

真正一步一个脚印的基石是
AlexNet(2012 ,横空出世,证明了神经网络有用)
word2vec ( 2013 ,文字到向量,文字也能打上神经网络便车)
Attention 机制用于机器翻译( 2014,发明 Attention 机制,简单有效,天才的创新)
Attention 用于文本蕴含( 2016 ,加入全盘 Attention ,Transformer 的灵感源泉与雏形)
ResNet ( 2016 ,残差链接,支持深度网络)<---中国人在 LLM 发展浪潮中为数不多的原创性贡献--->
Attention is All you need (2016 ,抛弃 LSTM ,彻底采用纯 Attention(Transformer),划时代工作)
GPT-1 ( 2018 使用 Transformer 做生成,小有成就)
GPT-2.5, GPT3.5, ChatGPT(接下来这些就是 Scaling law 了,这才是量变引起质变)
所以不仅仅量变引起质变,还是一步一个台阶走上来的
其中走了很多网路(例如 BERT , 抛弃了很多旧时代的东西例如 LSTM ,CNN )

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1174606

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX