大模型不会数数!违反常识的问题

18 小时 56 分钟前
 llej

Transformer 没有一个"离散、可验证、逐步更新"的状态来维护计数。

现在这个时代似乎大模型什么都能干,每天自媒体都是大模型干翻这个那个,前端又被杀了。

但是他不会数数!不信您可以试试发一段文本给大模型让他输出一下文本中的所有名词的位置,十有八九是会有错误的位置。

对于这个问题我不是大模型专家,不知道究竟是为什么,但是事实上就是他数数不太行

如何解决这个问题?

但是有些场景是依赖大模型输出对应的下标的,这似乎又是必须依赖大模型数数了。

例如利用大模型标记文档中的所有写错了的文字。

既然直接数数不行,但是如果你让大模型去复述文本却能得到很高的准确率。

那么自然而然的就能想到,将文本先按字拆分,然后将下标和文字一起给大模型,例如 : 1:大 2:模 3:型 4:不 5:会 6:数 7:数 这样之后输出的下标准确率就会飙升。

下面是一个简单的尝试,显而易见的 带坐标输入 的方案准确率更好

更好的解决方案

在经过一段时间的尝试和摸索之后,我发现就是结合文本分段,再加上一个上下文的一个后期的坐标修正是能够达到最佳的一个体验的。

例如给每一个段落分配一个 id 交给大模型,并且让他输出的时候携带相关文本前面一段文本和后面一段文本,输出示例: {before:'交给',target:'大模型',after:',并且',snippet:'片段 id'}

这样基本能达到 95% 以上的准确率了。


上面是一些拙见,欢迎指正交流更好的方案


实际应用场景,文档校对 demo 演示:

2342 次点击
所在节点    程序员
21 条回复
pi1ot
18 小时 51 分钟前
一个字符概率机,当然不会。
paopjian
18 小时 26 分钟前
大模型第一个工作就是 tokenizer, 你先去了解一下 tokenizer 是做什么, 不然哪天又惊呼 strawberry 连 r 有几个都数不清
liulicaixiao
18 小时 5 分钟前
最简单的办法是让它写代码
maplezzz
18 小时 3 分钟前
做过类似的校对 skill ,先让他自己写个计数的脚本,要计数的时候调脚本计算
wsseo
17 小时 56 分钟前
比如这个麻将,少哪一张牌,没有 AI 做得对。
hertzry
17 小时 22 分钟前
一般违反常识的东西,都是常识不对。
cocogovern
15 小时 52 分钟前
@wsseo 你让 claude code 来做不就完了
jimrok
15 小时 46 分钟前
所以,AGI 还没有来,人类还有救。现在的 AI 还是辅助我们的工具,离开了人,他啥也不想干。
xking
15 小时 9 分钟前
@wsseo 这副麻将里少了一张北风(北字风牌)。
这是一个很经典的麻将识牌题,完整的标准麻将(无花牌共 136 张)中,东南西北四种风牌各有 4 张,而这堆牌里北风仅能数出 3 张,是唯一数量不足 4 张的牌种。

豆包专家模式
opengps
15 小时 3 分钟前
推理能力确实跟基础能力不是一回事, 他能给你输出一段程序数数,但终归还没有到觉醒意识那一步
tanx
14 小时 45 分钟前

都不怎么样
Rickkkkkkk
14 小时 43 分钟前
这在之前是问题,现在有了 agent 早就不是问题了呀...

你也不会算一个超大的数乘以另外一个数是多少,你会拿出计算器。

现在大模型也会自己写脚本。
allanwell
14 小时 42 分钟前
大模型强的是推理,不是计算。
bzj
13 小时 5 分钟前
bzj
13 小时 2 分钟前


tf2
12 小时 58 分钟前
我会这样写 prompt:

把下段文本里的名词都替换成 NOUN ,然后写一段代码统计 NOUN 字符的数量。务必精确。
mwVYYA6
12 小时 56 分钟前
感觉楼主是穿越了
这篇一眼就是生成的内容可能被举报
llej
12 小时 4 分钟前
@mwVYYA6 如果把我定义为 AI 的话,这一篇确实就是 AI 生成的内容了
llej
12 小时 2 分钟前
@Rickkkkkkk agent 等方案确实是可行的,但做产品直接上 agent 是不合适的,例如文中提到的核稿场景,我想说的就是如果仅用一次大模型调用就解决问题,这样可以节约 token
llej
12 小时 1 分钟前
@tf2 重写文本然后再 diff 确实也是一个方案

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1224119

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX