AI 测试,我每次只要看到有最新的 AI 我都会试一次,但目前没有一个 AI 能回答正确一次

11 小时 44 分钟前
 ccctttwww
关于"我想洗车,离洗车店只有 50 米,你建议我开车去还是走去"这个问题还是有 AI 能回答正确的,但这张图至今没有一个 AI 能回答正确,这个问题只要是个 3 岁小朋友都能回答正确,AI 已经这么强大了还是回答不了 这张图片中小人的颜色和名字的对应关系
532 次点击
所在节点    分享发现
6 条回复
N0vermber11
11 小时 22 分钟前
应该是因为免费版或者低级别版本的 AI 厂商不愿意把特征提取精确到能提取细线的级别
WessonC
10 小时 7 分钟前
有人试了豆包回复的对。
zwkcoder
10 小时 6 分钟前
gemini pro 败北了
ccctttwww
9 小时 55 分钟前
@WessonC 我很早就试过一次,刚又试了一次还是不行
sillydaddy
9 小时 47 分钟前
有意思,试了几个模型:
Opus 4.5 thinking ,对了 0 个。

Opus 4.6 thinking ,对了 2 个( Bob 和 Adam )。

GPT 5.2 codex extra high thinking ,对了 3 个( Bob, Adm 和 Tommy )。

GPT 5.3 codex extra high thinking ,对了 5 个:
Bob:从 Bob 右侧线头出发,沿线向右后下弯,终点箭头指向中间黄绿色小人。
Jack:从 Jack 下方线头出发,走上方并行线中下方那条,终点箭头指向右上浅橙(偏米黄)小人。
Jimmy:从 Jimmy 下方线头出发,走上方并行线中上方那条长线,再沿右侧外圈下绕,终点箭头指向右中深蓝小人。
Tom:从 Tom 下方竖线出发,向下再左弯,终点箭头指向左下黄色小人。
Adam:从 Adam 左侧长线出发,沿底部向左再沿左侧上行,终点箭头指向左上粉红/玫红小人。


GPT codex 是用的编程工具处理的,尝试用 opencv 失败,后来用的 ffmpeg 。我还特意把线加粗了,不行的还是不行。
在 GPT 5.2 尝试过程中,里面冒出了这样一句: “我在校准裁剪参数,马上拿到上半部分的放大细节来确认 Jack/Jimmy 这两条最容易混淆的线”
sillydaddy
9 小时 43 分钟前
我是在 cursor 里面试的。感觉上面的成绩,跟 ARC-AGI 这个图形推理的测试成绩高度相关:

https://arcprize.org/leaderboard

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1192001

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX