高估了 GPT5.5 ehigh 的能力

周末用 GPT5.5 ehigh （全程官方订阅+Codex ）写了一个 AI 小说 App 。

PRD 是和 AI 讨论后再 Review 实现的，然后 5.5 根据 PRD 生成实现计划。主要涉及到上下文管理和多 Agent 协作，还是有一点复杂。

用 goal 跑了接近 2 个小时，用的 TDD 的流程开发的，代码看起来像模像样的，测试也很全。结果最后的成品让我大吃一惊，不但点按钮没有任何反应，在把可见 Bug 通过把报错信息丢给 AI 修复后发现很多地方还是用不了，直接用的模拟数据。而且有很多地方设计也很不合理。

之前在修复某一个 Bug 或者解决某一个单一需求时 GPT 给我的感觉良好，结果这种长程任务没想到完成的这么糟糕，也不知道是模型降智了还是能力上限就在这了。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1221836

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.