最近使用几个 AI 编程模型的一点感受

在对比使用了 WindSurf Pro/Trae Pro/通义灵码等辅助编程工具后，上周还是决定购买了 Github Copilot Pro 套餐运行在 VSCode 上, 算是暂时在价格和能力之间取得了平衡。

在这几天尝试开发一个浏览器插件的过程中，通过来回切换几个模型，发现他们各自还是挺有特色的。

最开始用 Claude Sonnet 4 。总结是：适合开荒。做新项目的时候，基本上能根据要求把结构搭建好，功能完成度很高，但是到后面改一些 bug 的时候似乎总也找不到重点，比如要实现查找页面元素去点击，它一开始就把类选择器的名称搞错了（不去找页面的真实元素，而是根据经验去找带点击特征的元素），当我要求它仔细查找时，它会不断把复杂度加大，去添加很多的匹配规则，甚至还让它去点击里面所有的嵌套元素，跳不出去了。
当我意识到它进入死胡同后，就切换到 Gemini 2.5 Pro 。总结是：适合改 bug 但小题大做，不适合推进项目。简单描述 bug 后，它给出了方案，并修复了这个点击问题，但是当我想继续做下一个功能的时候，发现它洋洋洒洒说了一大堆，最后把前面的功能给改没了。后面我发现这个问题挺严重的，它很喜欢边做边重构代码，导致我很沮丧，只能要求它别改，中间还骂了几句，很奇怪的是它道歉了后还真的修复了，整个过程就是挺累的，要来回聊好几次才能把一个功能固定下来。。。可能是我设置的规则不太对？
后来切换到 GPT-4.1 , 总结是：适合逐个小功能爆破。给他一堆要求，没有废话，thinking 一会后就会改一点点地方，让我重试。70%情况是成功修复问题的，剩下 30% 我要求继续检查，它也一样少言寡语，然后只修改一点点。

目前项目核心功能接近稳定，我已经主用 GPT-4.1 了。主要是它不会有大片的响应文本把整个 agent 窗口占满，因为我仔细看过了，像 Gemini 2.5 pro 在响应文本里解释它多牛逼的，（ 1 ）牛逼的技术我看不懂（ 2 ）看得懂的代码我自己也会写。所以，我为什么要听你絮叨呢？