前期功能规划架构设计,包括完成开发,用上 spec 和 superpowers 之类的插件,代码和功能开发都没什么问题。加上现在 agent teams 出来,开发起来飞快。
后期的测试才是最烦人的,项目大部分时间都花在了测试和反馈然后跟 AI 反复对话,他修好之后再测试再反馈,总要来回的话很多轮。随着功能越来越多,流程越来越多,分支也越来越多,相信大家都体验过新功能做好了,旧功能又有小问题。
为了解决这些测试问题,在开发的时候我就让 AI 在写功能的时候顺便写上测试用例,然后调用一个 agent 最后来统一跑这些测试用例,发现问题之后丢到一个统一的类似 issue 的地方,这里会触发 claude code 来进行修复,修复之后又让这个测试 agent 来测试。
如上他们自己跑一天,基本大部分的问题都能自动化解决,最后再人工测试,工作量减轻了很多,并且如果在外面或者哪位同事发现问题,我可以直接发到 issue 上,AI 先跑一轮尝试修复,完美闭环。
所以现在的问题是,这个测试用 opus 或者 sonnet 太奢侈了,大部分都是调用接口或者操作浏览器点按,比如注册登录账户下单什么的,想找一个便宜的,能力又还可以的模型来跑这个,核心代码开发和修复还是走 opus 。
量比较大所以找有 coding plan 的,目前测试了 GLM4.7, kimi k2.5, minimax M2.1 ,今天 GLM 和 minimax 都发新版了还没测。
测试下来 GLM 有点傻,因为不是多模态,无法对 css 布局这些浏览器结果截图进行分析。
K2.5 很好,但他们家的套餐用量太少了,99 一个月的基本 1-2 个小时就干完 5 小时用量,周用量更加不够,目前他家还是搞活动目前是 3 倍用量,活动结束后就更不够用了,要想畅用就得买那个 699 的,699 那我不如走 sonnet 了还能一站式解决。
minimax 跟 GLM 一样,但跑起来比较慢,对图片识别也不友好,并且他是按 promt 次数来计费,这种情境下用量也是很少。
其实写到这里,也有答案了,最好的就是 K2.5 ,就是比较贵,新出的 GLM5 和 minimax M2.5 不知道能力如何。
各位有什么好的方案建议?完成编码的最后一步:测试。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/1192439
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.