opus 的视觉能力是不是不如 gpt5.4?

2 天前
 cairnechen
写一个 skill 的时候发现的, workflow 里有一个步骤需要模型读取图片内容然后通过目视判断 UI 元素的位置,估算坐标,定位目标区域(可以迭代式地调整目标范围) GPT5.4 完成起来毫不费力,opus 坐标漂移的程度很夸张(大量目视判断后重试),问了下,claude 说自己看到的不是全图,而是看到渲染到会话的缩略图,比如一个 2000 宽度的图片,他实际看到的是 600 像素,这么变态的吗?
968 次点击
所在节点    问与答
7 条回复
liulicaixiao
2 天前
分辨率问题,需要自己提前调整图片。
liu731
2 天前
视觉这块还得 Gemini
cairnechen
2 天前
@liulicaixiao 要怎么调整,我刚才发现一个更奇葩的情况,让 cladue 知道图片的尺寸,它的处理能力就提升很多(准确性提高),是的,只要它知道图片尺寸其他什么都不用干就能提升处理能力。。。 奇怪的是,claude code 明明有 file 工具可以拿到图片信息,但是它自己不会主动用。。。
sillydaddy
2 天前
其实 benchmark 分数可以证明,不过我还是喜欢这个帖子里的视觉测试:
/t/1192001

当时我测试了只有 codex 5.3 extra high 能解决。不知道最新的 5.4 能不能解决,起码 Opus 4.6 是不行的。
VeryZero
2 天前
要先确认是缩放导致的位置不对还是 opus 认错了。

大概率是缩放导致的,这样的话等比例算回来就行了。千问的视觉模型也有这毛病,1920 的图片,它实际处理的时候缩放成了 1000 ,导致返回的位置是有偏移的
cairnechen
2 天前
@VeryZero 嗯,看了文档,claude 缩放的门槛是 1580px 或者 1.15M 像素或者~1600 token ,超过了就缩放,我那张图肯定触发了,为什么我告诉它实际图片尺寸之后它准确性提高了,是因为它开始用比例方式换算坐标了
idragonet
1 天前
视觉绝对 Gemini 第一!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1201655

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX