glm 5 和 minimax m2.5 都挺菜的

9 小时 10 分钟前
 qdwang

问题:我想去洗车,洗车店距离我家 50 米,考虑到环保,你说我应该骑车去还是开车去?(注意陷阱)


都是 API 测试,我都提示他们有陷阱了,还做不对。


glm 5 回答:走路去。陷阱在于:题目故意只给你两个选项(骑车或开车),诱导你在两个都不合适的选项中纠结,让你忽略了最简单、最环保的方案——走路。

minimax m2.5 回答:骑车去。原因很简单:你目的是去洗车,等你到了洗车店,车就要被清洗了。如果你开车去,到达时车已经是脏的,还要把脏车停在洗车店,这完全多此一举。

Kimi K2.5 回答:开车去。你要洗车,就必须把车带到洗车店。


大家可以试试

1671 次点击
所在节点    分享发现
32 条回复
YanSeven
8 小时 57 分钟前
国内这几家小的在算力,用户(用户数据)上都比不上美国那三家。菜是必然的,除非真在核心架构上鼓捣出高级的东西。

便宜+能覆盖部分低级场景就行。就好像一个低级开发,工作经验+给的工资本来就没那么多,表现一般合情合理。

有发展的后劲就行。
Dabney
8 小时 57 分钟前
glm 5 还是聪明,给你第三个选择 🤣
dfdd1811
8 小时 57 分钟前
deepseek:建议你骑车去洗车。
豆包:环保必须骑车或不行,要不要帮你计算一下汽车冷启动一次的油耗。
我看是国产模型全军覆没吧。
gemini 上来就识别出来是“逻辑挑战”不知道是真聪明,还是被问过。
MagicalCarl
8 小时 34 分钟前
Kimi K2.5
qdwang
8 小时 31 分钟前
@Dabney 还真是
foryou2023
8 小时 31 分钟前
我测试过 ds ,我的是开车去,但是看到不少其他人的是走过去。
qdwang
8 小时 31 分钟前
@MagicalCarl 哈哈哈 确实环保
soulflysimple123
8 小时 20 分钟前
测了个 glm5,思考了一大推最后总结如下:
总结:
如果是去送车洗,请开车(物理刚需);如果是人过去,请步行( 50 米骑车纯属多此一举)。最环保的方案是:下次直接在手机上下单“上门洗车”。


我想去洗车,洗车店距离我家 50 米,... →点击查看智谱清言的回答
https://chatglm.cn/share/AFcRP0ML
shm7
7 小时 59 分钟前
每次结果都不同,我试了 kimi qwen doubao ds ,qwen 和 ds 是可以的
qqqasdwx
7 小时 42 分钟前
啊?不是说 glm5 能和 claude sonnet 4.5 打平吗
catazshadow
7 小时 42 分钟前
@YanSeven 没后劲的,被制裁没算力就罢了,捂嘴干死数据量是无解的
woodongwong
7 小时 38 分钟前
gpt5.3 codex xhigh 都能回答错,但是你不得否认它撸码确实强。
jackchenly
7 小时 26 分钟前
刚才问 deepseek 回答对了
jackchenly
7 小时 26 分钟前
@jackchenly 考虑到你要洗的是汽车,而洗车店距离你家只有 50 米,你只有开车才能把车送到洗车店。如果骑车去,汽车还停在家里,无法完成洗车。因此,从实际需求出发,你必须开车去。虽然开车会产生排放,但距离很短,影响较小。这就是问题中的陷阱:环保考量不能忽视洗车的必要性。
redbule
6 小时 43 分钟前
@catazshadow 这是什么 rz 案例啊,和 coding 一毛钱关系都没有
Liftman
6 小时 10 分钟前
自娱自乐。聊以慰藉。咱的特色。上面有文件,天天都有阵风。很烦的。
xiaoz
5 小时 53 分钟前
拿一个单一的问题来对比测试是否过于片面性?
xiaoliuzhenshuai
4 小时 54 分钟前
刚才问 deepseek 回答错了,千问对了也是因为引用读了已经得答案(因为有很多这个问题了),gemini ,Claude ,chatgpt 没问题
Rrrrrr
4 小时 32 分钟前
最后一个,恐怕是修正后的回答
xxlsize
4 小时 28 分钟前
我只关心 coding 能力

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1192786

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX