算了吧 支乎说 LLMs 只是 auto complete

277 天前
 walterdarrell063

高考数学做不了 生物学題也做不了

我天朝一年約一千万高中生呢? 誰怕誰?

有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。问:父亲为什么崩溃了?

1552 次点击
所在节点    OpenAI
7 条回复
walterdarrell063
277 天前
自己經驗
o1, o1 pro mode 也不行

有人說 o1 preview 反而可以
kizunai
277 天前
即使是当前排行榜第一的 Gemini-Exp-1206 ,也回答不对,如果不刻意往色盲那方面引导的话,大模型根本不可能想得到答案。

以下是 Gemini-Exp-1206 的回复,虽然看起来说得很有道理:
“女儿的动机可能不仅仅是逃避惩罚: 如果只是想把分数改高,最简单的方法是用同一种颜色的笔,这样更不容易被发现。她特意用两种颜色,有可能不是为了掩盖什么,而是因为她当时只有这两种颜色的笔。这暗示了她可能家庭条件并不好,甚至没有一支完整的笔。”
lucifer9
276 天前
你不说清楚上下文,估计高中生来了也答不对
cslive
276 天前
o1 preview 居然可以
muzei233
276 天前
你这我也答不出来
walterdarrell063
276 天前
@lucifer9
@cslive

这些跟其他測試問題一樣,
我測的当時告知 o1, o1 pro mode 答案了。
它"學"了, 入題库了。
但你改一下, 它 tmd 又不会了。
walterdarrell063
276 天前
@walterdarrell063 已經很多很多人問过同一問題了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1095944

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX