opus 的视觉能力是不是不如 gpt5.4?

写一个 skill 的时候发现的, workflow 里有一个步骤需要模型读取图片内容然后通过目视判断 UI 元素的位置，估算坐标，定位目标区域（可以迭代式地调整目标范围） GPT5.4 完成起来毫不费力，opus 坐标漂移的程度很夸张（大量目视判断后重试），问了下，claude 说自己看到的不是全图，而是看到渲染到会话的缩略图，比如一个 2000 宽度的图片，他实际看到的是 600 像素，这么变态的吗？

cairnechen

2 天前

@liulicaixiao 要怎么调整，我刚才发现一个更奇葩的情况，让 cladue 知道图片的尺寸，它的处理能力就提升很多（准确性提高），是的，只要它知道图片尺寸其他什么都不用干就能提升处理能力。。。奇怪的是，claude code 明明有 file 工具可以拿到图片信息，但是它自己不会主动用。。。

sillydaddy

2 天前

其实 benchmark 分数可以证明，不过我还是喜欢这个帖子里的视觉测试：
/t/1192001

当时我测试了只有 codex 5.3 extra high 能解决。不知道最新的 5.4 能不能解决，起码 Opus 4.6 是不行的。

VeryZero

2 天前

要先确认是缩放导致的位置不对还是 opus 认错了。

大概率是缩放导致的，这样的话等比例算回来就行了。千问的视觉模型也有这毛病，1920 的图片，它实际处理的时候缩放成了 1000 ，导致返回的位置是有偏移的

cairnechen

2 天前

@VeryZero 嗯，看了文档，claude 缩放的门槛是 1580px 或者 1.15M 像素或者~1600 token ，超过了就缩放，我那张图肯定触发了，为什么我告诉它实际图片尺寸之后它准确性提高了，是因为它开始用比例方式换算坐标了

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1201655

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.