大模型是如何执行像数学运算、编程等精确性要求比较高的任务的?

172 天前
 happyn
我的理解就是大模型是一个 Token 预测的网络,通过大量数据的预训练,从输入的 context 中预测下一个最有可能的 token ;那我有一个很小白的问题,诸如数学运算,比如 673 X 3666 = ? 这种运算,大模型是如何通过 token 预测得出答案的?而且之前也有一些很明显的应用,比如让大模型扮演一个编译器等等执行非常精确的运算,我实在想不通,如果不是由专有的程序,仅仅依靠神经网络,就能执行这种类似的运算吗?

我跟 Gemini 聊了半天,发现一个非常有意思的事情,比如我问他 "请告诉我圆周率小数点后 x 位的数字",当 10 位,30 位,50 位的时候,都没有问题,但是超过一定量,比如 1000 位,它就会宕机; 如果用 deepseek 的推理模式,他就会自己计算;所以我的理解是:

1. 大模型理解问题,是靠神经网络进行 token 预测的
2. 大模型解决数学类的精确问题,必须是混合模型(MoE),调用专门处理精确计算的那个部分,才能得出正确答案?

这个理解对吗?
3976 次点击
所在节点    机器学习
29 条回复
rqYzyAced2NbD8fw
172 天前
@happyn #17 解释器也有一套八股文的,你把 syntax tree 之类的东西搞懂自己也能写一个解释器
QiShine
172 天前
现在技术路线已经分化了,一种是大模型用 MLP 来逼近/模拟计算,1989 年和 1991 年研究数学的人就搞出了”万能逼近定理“,后续的研究都是怎么高效的降低错误率,一种是调用一个外置的或者内置的计算器或者解释器。这其实和人是一样的吧,我算六位数乘法也会用计算器啊,虽然我也会笔算。
rogerer
171 天前
@sujin190 表示能力和统计意义上容易学到是两件事,LLM 到目前为止对四则运算还是有问题的。
panda1001
171 天前
这么理解可能像人一样的计算方式
二十以内加减法依靠记忆,还有记忆公式定理
其他的复杂计算需要纸和笔,精确计算不依赖记忆/大脑内存不够
大模型靠长期记忆记住二十以内加减法,应该是神经网络,也是 op 说的和想象中的人类计算加法的方式很不一样,更复杂的去尝试运用公式和解释器
tinydancer
171 天前
OP 是 happyn 的开发者吗?最近刚用 happyn 和朋友打完了双影奇境,体验很好,感谢 OP🥰
cheng6563
171 天前
你不要想太多,LLM 作为机器学习发展而来的模型,和其他模型使用方法是一样的。也就是输入数据,推理结果,输入聊天记录,推理出下一个(字)回复。
其他功能都是 AI 产品通过外部工具连接使用,最近热门的 MCP 就是这个连接外部工具的协议。

LLM 也是“想即为说”,1234x4321 能直接得出结果是是因为模型里面已经有现有数据。遇到其他模型里面没有的算式,你要让他笔算才能让他算对。

https://www.promptingguide.ai/zh 这个网站我建议所有想了解 LLM 的人都看一下
neteroster
171 天前
#20 是对的,MoE 名字有些误导,实际上稀疏化才是目的和作用。并没有什么语义理解、问题拆分等模块。
rogerer
171 天前
@yushi17 没有这么语义化的分化,但是专家之间还是会有分化吧
sujin190
171 天前
@rogerer 这没什么,AI 的方向估计会和人一样,擅长学习如何使用工具计算但不会擅长直接计算,只要能准确识别这是个啥数学问题就行了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1121905

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX