关于大模型原理的感叹

有时候使用 LLM ，对于其输出，尽管看了一下科普，了解一点什么“本质上是知识压缩”，“预测下一个 token”，“概率”等等。

但是仍然觉得很神奇，大语言模型这个东西在我的感性上，觉得比图像大模型和视频大模型神奇多了。

可能就像“不会数理化，觉得什么都是魔法”一样。我不知道大模型的具体的内部逻辑。

真的是看着它的输出，觉得有点神奇。

thinszx

2025 年 11 月 24 日

原理其实从 bert 甚至从 lstm 、一维 cnn 起就没变过，之后 chatgpt 是量变引起质变的验证，感兴趣可以看看一维 cnn 做时序预测相关的工作就知道了

whoosy

2025 年 11 月 24 日

大模型的调参对专门研究 LLM 算法的人，也像是一个黑盒，很多时候依赖经验主义和大量的实验探索。

YanSeven

2025 年 11 月 24 日

@thinszx 这里说的“量变”到“质变”说的是“涌现”吗。但是，仍然比较好奇，怎么就涌现了，为什么会涌现。

cmdOptionKana

2025 年 11 月 24 日

确实很神奇。但也有很多人感受不到这种神奇。我就见过有些人对魔术也感受不到神奇的，他们会认为 “哦，虽然我看不破，但反正就是你用了某种方法骗我，仅此而已”。LLM 也一样，有些人会感觉“反正你们是专家，你们把这个研究出来是应该的”，甚至还会嫌弃 LLM 太笨，鄙视一番。

maplezzz

2025 年 11 月 24 日

我也觉得很神奇，能不能理解为 LLM 从训练知识里归纳出了一个参数量足够大足够多的语言推理函数，通过用户的输入和这个函数以此来预测接下来的输出

DICK23

2025 年 11 月 24 日

确实是长久的积累引起的质变。AI 概念很在就被提出了，昨天还刷到了辛顿博士一九八几年的时候演示图形识别技术的微博，确实挺震撼的

czkm1320

2025 年 11 月 24 日

目前宇宙本质是数学来着，ai 一个字一个字根据概率和相关性往外输出文字，本质都是统计学，数学算法集大成

nno

2025 年 11 月 24 日

@YanSeven
还找不到真正原因。都是些猜测，比如系统论的猜测：系统复杂性上来之后就会带来新的特性
而且说是涌现，但和真实智能还是有差距的；

dog82

2025 年 11 月 24 日

就是一个超级大型的矩阵，通过前向学习和反向传播使这个大矩阵更准确。
高等数学+线性代数就够了

risan

2025 年 11 月 24 日

你可以了解一下“涌现”，会有自己的答案的

xtreme1

2025 年 11 月 24 日

这不是前两年的日经话题么, 主流的一个观点是(我的总结不一定准确), 人类自己的"学习理解"就是在压缩信息, 即找到最短的编码方式, 而这和"预测哪个字最可能出现", 在数学上是同一回事. 相关文章可以搜索 Compression is Intelligence.

jonsmith

2025 年 11 月 24 日

AI 炼丹师，LLM 的内部逻辑是未解之谜。

meihuanyu88x

2025 年 11 月 24 日

知道了原理以后，依旧会觉得它是魔法.

sillydaddy

2025 年 11 月 24 日

你不是一个人。即使是如杨立昆或辛顿这样的行业内专家，也不理解。大模型就是一个黑盒。辛顿是这样解释 LLM 的：你把文字转为另一个空间的向量，这个向量表达了文字的各种 feature ，然后这个向量经过了 LLM 的复杂操作，输出一个同样表达各种 feature 的新向量。这就是“理解”的含义。

可以看一下 3blue1brown 相关的科普视频，****几千万次****的播放量：
<amp-youtube data-videoid="wjZofJX0v4M" layout="responsive" width="480" height="270"></amp-youtube>&list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi&index=7

IndexOutOfBounds

2025 年 11 月 24 日

@meihuanyu88x 这个同感，我自己撸了个玩具模型，过程中问了很多 Why ，依然不敢说有很透彻的了解，不过也正常可解释性目前也还只是研究方向

https://github.com/glidea/tinygpt

ShinichiYao

2025 年 11 月 24 日

你不需要知道大脑是怎么工作的，你只要照着上帝的设计把它通过电路模拟出来就行了

apkapb

2025 年 11 月 24 日

我突然想到：

0-1 是最难的，现在 AI 已经过了 0-1 了，这会导致大量的企业投入巨量资金来研究，以后肯定会越来越好的。

TabGre

2025 年 11 月 24 日

@sillydaddy 地址好像不全

cmdOptionKana

2025 年 11 月 24 日

@ShinichiYao “上帝的设计”是指什么？

LaurelHarmon

2025 年 11 月 24 日

“原理从 Bert 甚至从 lstm..没变过”这样说不对，bert 是判别模型，gpt 是生成模型，压根不是一个路子。BERT 属于走了岔路，跟当前的生成模型进步没啥关联。

真正一步一个脚印的基石是
AlexNet(2012 ，横空出世，证明了神经网络有用）
word2vec （ 2013 ，文字到向量，文字也能打上神经网络便车）
Attention 机制用于机器翻译（ 2014,发明 Attention 机制，简单有效，天才的创新）
Attention 用于文本蕴含（ 2016 ，加入全盘 Attention ，Transformer 的灵感源泉与雏形）
ResNet （ 2016 ，残差链接，支持深度网络）<---中国人在 LLM 发展浪潮中为数不多的原创性贡献--->
Attention is All you need (2016 ，抛弃 LSTM ，彻底采用纯 Attention(Transformer)，划时代工作）
GPT-1 （ 2018 使用 Transformer 做生成，小有成就）
GPT-2.5, GPT3.5, ChatGPT(接下来这些就是 Scaling law 了，这才是量变引起质变）
所以不仅仅量变引起质变，还是一步一个台阶走上来的
其中走了很多网路（例如 BERT ，抛弃了很多旧时代的东西例如 LSTM ，CNN ）

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1174606

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.