跑测试用例目前哪个模型综合能力和费用下来最合适？

前期功能规划架构设计，包括完成开发，用上 spec 和 superpowers 之类的插件，代码和功能开发都没什么问题。加上现在 agent teams 出来，开发起来飞快。

后期的测试才是最烦人的，项目大部分时间都花在了测试和反馈然后跟 AI 反复对话，他修好之后再测试再反馈，总要来回的话很多轮。随着功能越来越多，流程越来越多，分支也越来越多，相信大家都体验过新功能做好了，旧功能又有小问题。

为了解决这些测试问题，在开发的时候我就让 AI 在写功能的时候顺便写上测试用例，然后调用一个 agent 最后来统一跑这些测试用例，发现问题之后丢到一个统一的类似 issue 的地方，这里会触发 claude code 来进行修复，修复之后又让这个测试 agent 来测试。

如上他们自己跑一天，基本大部分的问题都能自动化解决，最后再人工测试，工作量减轻了很多，并且如果在外面或者哪位同事发现问题，我可以直接发到 issue 上，AI 先跑一轮尝试修复，完美闭环。

所以现在的问题是，这个测试用 opus 或者 sonnet 太奢侈了，大部分都是调用接口或者操作浏览器点按，比如注册登录账户下单什么的，想找一个便宜的，能力又还可以的模型来跑这个，核心代码开发和修复还是走 opus 。

量比较大所以找有 coding plan 的，目前测试了 GLM4.7, kimi k2.5, minimax M2.1 ，今天 GLM 和 minimax 都发新版了还没测。

测试下来 GLM 有点傻，因为不是多模态，无法对 css 布局这些浏览器结果截图进行分析。
K2.5 很好，但他们家的套餐用量太少了，99 一个月的基本 1-2 个小时就干完 5 小时用量，周用量更加不够，目前他家还是搞活动目前是 3 倍用量，活动结束后就更不够用了，要想畅用就得买那个 699 的，699 那我不如走 sonnet 了还能一站式解决。
minimax 跟 GLM 一样，但跑起来比较慢，对图片识别也不友好，并且他是按 promt 次数来计费，这种情境下用量也是很少。

其实写到这里，也有答案了，最好的就是 K2.5 ，就是比较贵，新出的 GLM5 和 minimax M2.5 不知道能力如何。

各位有什么好的方案建议？完成编码的最后一步：测试。

sillydaddy

19 小时 22 分钟前

同问。我也感觉现在自动化测试是 vibe coding 的核心关键，而限制自动化测试的就是成本。

我感觉只能等 token 价格下降了。刚试了这个帖子（ /t/1192001 ）的图片，125KB 左右的一个 jpeg 文件，问里面有几个小人儿，花费了 1 万多的输入 token （这里不排除有系统提示词之类的，但大体是 1 万 token ），说明截图还是很费 token 的，Sonnet4.5 的话大概两三毛钱。

有没有可能优化一下测试流程，尽量直接一步到位加载目标网页的数据，而不是逐步点击，也就是把测试也模块化，当然我没有做过测试，只是瞎猜。但 token 贵的话，只能人工优化测试流程了。