跑测试用例目前哪个模型综合能力和费用下来最合适?

20 小时 10 分钟前
 mogutouer
前期功能规划架构设计,包括完成开发,用上 spec 和 superpowers 之类的插件,代码和功能开发都没什么问题。加上现在 agent teams 出来,开发起来飞快。

后期的测试才是最烦人的,项目大部分时间都花在了测试和反馈然后跟 AI 反复对话,他修好之后再测试再反馈,总要来回的话很多轮。随着功能越来越多,流程越来越多,分支也越来越多,相信大家都体验过新功能做好了,旧功能又有小问题。

为了解决这些测试问题,在开发的时候我就让 AI 在写功能的时候顺便写上测试用例,然后调用一个 agent 最后来统一跑这些测试用例,发现问题之后丢到一个统一的类似 issue 的地方,这里会触发 claude code 来进行修复,修复之后又让这个测试 agent 来测试。

如上他们自己跑一天,基本大部分的问题都能自动化解决,最后再人工测试,工作量减轻了很多,并且如果在外面或者哪位同事发现问题,我可以直接发到 issue 上,AI 先跑一轮尝试修复,完美闭环。

所以现在的问题是,这个测试用 opus 或者 sonnet 太奢侈了,大部分都是调用接口或者操作浏览器点按,比如注册登录账户下单什么的,想找一个便宜的,能力又还可以的模型来跑这个,核心代码开发和修复还是走 opus 。


量比较大所以找有 coding plan 的,目前测试了 GLM4.7, kimi k2.5, minimax M2.1 ,今天 GLM 和 minimax 都发新版了还没测。

测试下来 GLM 有点傻,因为不是多模态,无法对 css 布局这些浏览器结果截图进行分析。
K2.5 很好,但他们家的套餐用量太少了,99 一个月的基本 1-2 个小时就干完 5 小时用量,周用量更加不够,目前他家还是搞活动目前是 3 倍用量,活动结束后就更不够用了,要想畅用就得买那个 699 的,699 那我不如走 sonnet 了还能一站式解决。
minimax 跟 GLM 一样,但跑起来比较慢,对图片识别也不友好,并且他是按 promt 次数来计费,这种情境下用量也是很少。

其实写到这里,也有答案了,最好的就是 K2.5 ,就是比较贵,新出的 GLM5 和 minimax M2.5 不知道能力如何。


各位有什么好的方案建议?完成编码的最后一步:测试。

315 次点击
所在节点    ☕Vibe Coding🤖
3 条回复
sillydaddy
19 小时 22 分钟前
同问。我也感觉现在自动化测试是 vibe coding 的核心关键,而限制自动化测试的就是成本。

我感觉只能等 token 价格下降了。刚试了这个帖子( /t/1192001 )的图片,125KB 左右的一个 jpeg 文件,问里面有几个小人儿,花费了 1 万多的输入 token (这里不排除有系统提示词之类的,但大体是 1 万 token ),说明截图还是很费 token 的,Sonnet4.5 的话大概两三毛钱。

有没有可能优化一下测试流程,尽量直接一步到位加载目标网页的数据,而不是逐步点击,也就是把测试也模块化,当然我没有做过测试,只是瞎猜。但 token 贵的话,只能人工优化测试流程了。
whoosy
18 小时 49 分钟前
codex team 接近免费
Tink
17 小时 45 分钟前
minimax 我试了一下,新版还是不太行,看着上下文多,实际多聊一会就炸了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1192439

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX