我的 GPT 5.5 怎么和你们的不一样?

7 小时 25 分钟前
 w568w

最近经常看到有帖子回复说「 GPT 5.5 比 Claude Opus 强得多」「 GPT 5.5 更全能」(例如 t/1217986 )。

但就我最近几周的使用体验,我感觉 GPT 5.5 相当不如人意啊。具体来说:

  1. 口癖和英文直译腔特别严重。虽然说比之前的 GPT 5.2~5.4 好一些,但也真的只是好一些,还是特别喜欢说「稳」「接」「拆」「跑」「闭环」「收敛」「它更像是……」「不是……而是……」「你说的完全正确」「先说结论」「列出“子弹”」「修改更“硬”」「要不要我……」「我立马开始……」。我尝试写了个 Skill 来试图修复它的回复风格,但也没有太大收益;

  2. 结构化表达能力不行。例如同样是对于一个代码仓库,询问一个需要深入代码研究的问题,Opus 4.8 能够简洁地以一两句话回复 Yes or No ,但 GPT 5.5 就要生成几千 tokens 的、包含四五点小标题的冗长回答,引用一大坨代码,而且每个分点的内容之间相互重叠,读起来全是噪音,心智负担特别高,而且相比于 Opus 的答案,也没有获得什么额外的有效信息量。搞得我现在都不敢问 GPT 5.5 问题了,读得头疼。

  3. 擅自动手,干一大堆根本没有要求的任务。这个我原以为只有 Gemini 之类的模型会犯,但最近 GPT 5.5 也开始频繁出现了:让他看个 review ,讨论一下如何解决,它直接自作主张一口气「阅读了 review 、研究了代码、选择了自己喜欢的解决方案、编写了 AI review 回复」。要不是我及时掐断,它都要调用 GitHub cli ,以我的身份去回复别人了; 还有一次,要求它「阅读一个 bug 描述、定位代码问题」,结果它非要和我讨论「这个 bug 报告的英文措辞不对,应该如何改善」,就很……

  4. 代码风格很差。这个我不知道怎么描述,但是同样让 GPT 和 Opus 去写一个一两千行左右的复杂代码任务,GPT 给我写的代码修修补补之后,最终总是包含几十个零碎函数、一大堆无用的小作文注释、不对称的代码结构(例如有两个 Config 概念,GPT 非要写出一个 struct、一个 class)。这些也都算好的了,毕竟「又不是不能用」,关键是它写着写着会把自己也给绕进去,淹没在自己写的屎山注释和混乱结构里,最后失能得连自己写的细节都忘记了,debug 都做不好了;

而 Opus 不仅写出来的代码更有「人味」、符合我的预期,甚至有能力修复重构 GPT 写出的屎山,延长 GPT 的工作周期。有一次:GPT 5.5 挣扎两个小时,然后告诉我做不好的任务,Opus 花 15 分钟定位、直接几行代码解决了。


总之,我目前的体感能力大概是:

Opus 4.8 ≈ Opus 4.6 >> Opus 4.7 > GPT 5.5 ≈ MiMo 2.5 Pro >> GPT 5.2~5.4 >> Gemini 3.1 Pro

我的配置:OpenCode + ChatGPT Pro 官方订阅(无中转站),GPT 5.5 xhigh

如果各位有舒适的使用体验,也欢迎分享点 Harness 方面的干货,我是真没辙了。昨晚项目被 GPT 5.5 乱改一通,气得血压都高了

1058 次点击
所在节点    程序员
26 条回复
409164
7 小时 24 分钟前
4.8max 秒杀 5.5xhigh
Ericcccccccc
7 小时 10 分钟前
用的是 codex 吗
w568w
7 小时 7 分钟前
@Ericcccccccc 主帖有写,是 OpenCode 。我不太方便把我的 Claude 订阅接入到 Codex ,所以两边都「客场作战」,用一模一样的 OpenCode 配置,来公平比较了。
Ericcccccccc
7 小时 4 分钟前
@w568w 这就不清楚了。codex 是很强的,我的体感是只要讲清楚代码都是一遍过的。(我没用过 cc
lujiaosama
6 小时 44 分钟前
@w568w OpenCode 的锅可不小。同样接入 DeepSeek ,用 Claude CLI 和 OpenCode 的表现截然不同。
Perry
6 小时 42 分钟前
其实很看你的 Verification loop 如何
xuhuanzy
6 小时 40 分钟前
你是我第一个看到 opus 改 gpt 的屎山的, 正常来说只有 gpt 给 opus 擦屁股的份
w568w
6 小时 39 分钟前
@lujiaosama 你的意思是,OpenCode 在 Claude 上能发挥优势,但在 DeepSeek 、GPT 上都有极大劣势?我倒是也可以试试 Codex CLI 就是了

@Perry 此话怎讲?
w568w
6 小时 38 分钟前
@xuhuanzy 「正常来说」是怎么来说?能不能分享下你的配置?
felixcode
6 小时 37 分钟前
gpt 5.5 xhigh 感觉比 opus 4.7 max 稳很多。
opus 快是快,顾前不顾后,改了这个忘了那个。
Retas
6 小时 37 分钟前
codex 的 GPT-5.5 的语言表达感觉能追上 Opus-4.8 了,没有那么糟糕
w568w
6 小时 34 分钟前
@felixcode 我的体验正好和你相反:GPT 5.5 各种瞎 jb 改,不管上下文,甚至不管我前一句话的要求是什么,按自己喜好乱写; Opus 倒是总是瞻前顾后,每次 plan 时排出一堆 concerns 来

另外我感觉 Opus 4.7 明显有大幅度降智,Opus 4.8 才勉强回归到了 4.6 的能力水平,所以我把 GPT 5.5 和 Opus 4.7 放在一起
Zarhani
6 小时 32 分钟前
没用过 claude ,但是我这边倒是 GPT5.5 生成的代码质量还算不错,我都是先用 GPT5.5 生成大框架后用 deepseek v4 pro 来继续干自动完成的活的,(问就是 codex 限额太少)
Zarhani
6 小时 31 分钟前
@Zarhani deepseek 给我的感觉就是,只要上下文里面有已有高质量代码,就会变得巨聪明;如果上下文没有高质量代码就会没那么聪明;似乎这个模型底子不错但是后训练不足,小众需求代码不在知识库里面
lujiaosama
6 小时 31 分钟前
@w568w 我只是对比了 DeepSeek 在这俩上的表现。CodeX+GPT5.5 高有你说的问题特征,但是没有那么差,看描述像是 Codex5.3 之前比较容易出现的。
Zarhani
6 小时 27 分钟前
@lujiaosama 我一直用的 vscode 上的插件,没有安装 codex 独立应用
w568w
6 小时 25 分钟前
@lujiaosama 嗯嗯。GPT 5.5 肯定是比 Codex 5.3 或者 5.4 强的,尤其在反编译、绕过反爬虫和逆向软件这种安全任务上,明显比 Opus 4.6 强得多。

但 GPT 5.5 这个工程实践能力在我这里确实不咋行,而且输出口癖的风格还是没扭转过来,有时任务做的差、代码写得烂,又得意洋洋地总结自己做得如何如何好,有种面对伪人实习生的感觉,很火大。
tanrenye
6 小时 25 分钟前
@w568w 额,为什么会有必要用同一个 agent 对比,Claude 和 codex 都有针对性的优化,用原厂的 Claude code 和 codex 才是最好的,我自己的体感 5.5 和 Claude 相差不大,5.5 确实代码会啰嗦一些,但无伤大雅,5.5 会更倾向于跟项目现有的风格保持一致,Claude 会更倾向于他自己认为好的实现,但我平时更多用 codex ,因为 Claude 是公司中转的,很慢,但 Claude 有 1M 上下文这个在超长任务的时候会比 codex 有明显优势
zhangleijuly
6 小时 25 分钟前
可能是 opencode 的问题?模型只是一方面,用什么 agent 调用模型也不能说完全没影响
xialaoban
6 小时 24 分钟前
口癖这点真的无比认同

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1218023

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX