这道数学题能让目前所有 AI 原地爆炸

183 天前
 ayang23

一水池有甲和乙两根进水管,丙一根排水管。空池时,单开甲水管,5 个小时可将水池注满;单开乙水管,6 个小时可将水池注满;满池水时单开丙水管,4 个小时可将水池排空。如果按照甲、乙、丙、甲、乙、丙……的顺序轮流各开一个小时,要将水池注满需要多少个小时?

测了一下各种模型,只有 deepseek 最大的模型深度思考能做出来,但过程非常漫长,一直推翻自己的结论,耗时 446 秒,没测 chatgpt 的深度思考,因为没号。其他全错。

9789 次点击
所在节点    分享发现
105 条回复
ayang23
183 天前
@soulflysimple123 没问题了
neteroster
183 天前
o3-mini-high (api): 19 小时 36 分钟。

promptTokens=126, completionTokens=4342, 总时间=32s, tps=136
NGGTI
183 天前
@ayang23 ChatGPT 好像存在缓存什么的,问了很多次都是 24 小时。其他问一次,要么 2 次就对了。
bookshell
183 天前
19.6 小时吧
sillydaddy
183 天前
@NGGTI #19
我算的跟 GPT 一样,24.3 小时。

将问题转化为整数,方便计算。假设水池体积是 60 ( 5,6,4 的最小公倍数),那么灌水数量的序列就是
12, 10, -15, 12, 10, -15 ......
可以观察到,每 3 个小时为一轮,一轮的灌水是 12+10-15=7 ,7 * 8 轮= 56 。8 轮就是 24 小时,然后 56 再灌 4 就到 60 ,需要 4/12=0.3 小时。
stone9527
183 天前
龟兔问题能答对吗
sillydaddy
183 天前
我发现我已经比不过 AI 了:GPT 比我不差,而其他的都比我聪明。
lyanforever
183 天前
本地 QwQ-32b-Q4 模型 出的答案是 19.6 = 98 / 5
NGGTI
183 天前
@sillydaddy GPT 挺离谱的,我让他用 Python 编程的方式解决,计算成 20 个小时了。一看就是四舍五入了。他还问我要不要优化的分钟级别的,我说优化,他说:不能。问了他 2 次才同意帮我优化。
bage2020
183 天前
初中水平
sillydaddy
183 天前
@NGGTI 有没有可能提问者问的就是「多少『个』小时」,在 GPT 理解看来,「个」就是整数。 😂
我觉得不管怎么说,回答 19.6, 19.36, 20, 21, 24.3 的,都不能算笨,都有理由。让它编程如果逻辑是正确的,说明没有难倒它。如果让我编程去实现,我也能正确编程,从而发现自己的口算的 24.3 是错误的。
sillydaddy
183 天前
@NGGTI 我口算算出的是 24.3 ,是因为我没有去一个一个的加,而是按照 7*8=56<60 ,这样用的乘法去加速计算的,最后导致了错误,如果我一个一个的加,可能就不会犯错,就像我用编程去实现的话,一定会找那个首次导致和>60 的数。那么谁说 AI 不是这样的逻辑呢?你没有办法证伪。
greygoo
183 天前
我这里的 Claude 3.7 thinking 用了三种方式验算了一边最后出的答案都是 19.6 一共用时 130.9s,花了 121.0 思考,达到了~89.4 tokens/s 生成了 11702 tokens ,Claude 3.7 thinking 还是很强的
deplives
183 天前


o3 mini high 没开 deep research 秒解答
wulili
183 天前
正确答案:24+1/3 小时,也就是 24.3333 小时。
这题目完全没什么难度吧,简单推理一遍就出来了,《让目前所有 AI 原地爆炸》从何说起,op 你帐号是不是被降智了,我试了 Grok3 和 GPT4o 还有 o1 ,答案都是对的。
vFIVEv
183 天前
6*3 小时后 84/120 19 小时甲加水 108/12
wulili
183 天前
@ayang23 #13 ,这个推理一看就是出错了,一个周期是 7/60 ,那至少也得 8 个周期啊,也就是至少 24 小时
yulgang
183 天前
我发现 deepseek 晚上很快的,甚至连着深度思考都能有回复。

试了一下 ChatGPT 24 秒,DeepSeek 思考过程中居然把每个小时的情况都列出来了
grit136907108
183 天前
正确答案是 19.6 ,网上都可以搜到题目答案的
neteroster
183 天前
@wulili 每个周期内水位是先升后降的,19.6 小时处的那个尖峰其实已经注满了,19.6 是考虑了这一点下的结果。你直接忽略内部过程按周期看就是不一样的,但是你不能说 19.6 是错的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1118105

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX