跑分的话是 GPT-5 mini 推理 medium 的一些跑分在 minimax m2/qwen3 coder 那一档 你可以搜下 SWE-rebench
wilddog
2025 年 12 月 3 日
@bbbblue 嗯,评分我知道,主要是问问有没有老哥实际 code 过的,输出的实际能力如何,因为我还看到有人说 Grok code fast 不错,不过我今天试用下来 Grok 一直限流没用成
codehz
2025 年 12 月 3 日
Grok code fast 输出 patch 正确性高(甚至比付费的 codex 还好),但是复杂任务不是很行,raptor mini 是微调的 gpt 5 mini ,能解决一定程度的复杂问题,但速度太慢,用于编写代码不是很稳定,我建议是免费的话就用 raptor 做 plan ,然后 grok 执行计划()
wilddog
2025 年 12 月 3 日
@codehz 感谢,不过 Grok 几乎处于不可用的状态,一直提示上游限制,看起来现在只能用 gpt 5 mini 了
burnsby
2025 年 12 月 3 日
我直说了, 哪怕你使用 GP 里面的 Opus 4.5 模型, 它也是个弱智, 我用 OpenSpec 来开发功能, 在完成任务的时候它居然给我任务列表都改掉了
labubu
2025 年 12 月 3 日
同问付费里面的哪个好用
zisen
2025 年 12 月 3 日
@burnsby Opus 4.5 经常列一个 plan ,然后就杵在那也不执行,还得我说继续才执行,感觉是降智了,还是买 api 靠谱
zisen
2025 年 12 月 3 日
@labubu 不降智的话 claude 响应快,适合问问题,gpt5.1 调查比较严谨,适合改代码,降智的话都不好用,改用自己买的 api