这可能是下一个周经帖:国产大模型哪个编程能力最顶?

22 小时 15 分钟前
 kaesi0

如题,在不考虑价格的情况,目前国产大模型哪个编程能力最顶呢,以及各自的擅长领域,参赛的选手有:

GLM-4.6:说是 Claude Sonnet 4.5 和 GPT-5 ,但价格仅需要 Sonnet 1/7

Qwen3-Code:SWE-bench Live 测试中得分 54.7 ,超越 GPT-4.1 ( 48.6 ),中文 API 文档理解准确率达 92%

DeepSeek-V3.2-Exp:说是被 GLM4.6 超过,但在 Vercel 、Windsurf 等编程平台接入

MiniMax M2:每 token 成本仅为 Claude Sonnet 的 8%、在 Terminal-Bench 测试中得分 37.5 ,专为 Agent 工作流设计

4078 次点击
所在节点    程序员
55 条回复
courtier
21 小时 40 分钟前
我觉得就是考虑了价格的情况下才会使用国产大模型。。。主打性价比,不然 Claude ,gpt ,gemini 不香吗
gorvey
21 小时 38 分钟前
不好说,你不知道它什么时候会降智,本来就不聪明,一降智就很难用,反正就是都不行
abc0123xyz
21 小时 33 分钟前
GLM-4.6 不错,240 块的套餐,要是觉得不好,那肯定是我自己的问题(穷)
sunny352787
21 小时 29 分钟前
我全测过一遍,结论是全是垃圾,不要在这上面浪费时间了,所谓的价格七分之一,但是你耗费的时间不只七倍,能力极差性价比极低,老老实实用 opus4.5 或者 gemini pro3 ,别的都是浪费生命
midsolo
21 小时 27 分钟前
GLM-4.6 之前用起来还不错,但是在出了背刺包之后,用量太多了,总是莫名其妙的降智,严重影响体验
keshawnvan
21 小时 23 分钟前
全是垃圾,别浪费时间。
ericguo
21 小时 8 分钟前
kimi-for-coding 还行,49 元每周 1024 次调用
cleveryun
20 小时 53 分钟前
好奇问一下,GLM 4.6 ,在 trae 和 iflow cli 里都有免费的,用这个和用 GLM coding plan 里的付费套餐,对应的是同样的大模型吗,网速上或者功能上有差异吗?
abc0123xyz
20 小时 28 分钟前
刚出的时候最好,这个时候为了宣传,不怎么降智。
YanSeven
20 小时 26 分钟前
干点小活儿是可以的,不要想着用 3 个低级研发顶上一个中级研发。三个臭皮匠顶不过诸葛亮。
Saunak
20 小时 18 分钟前
@sunny352787 sonnet4.5 呢? opus4.5 有点太贵了。
gpt5codex 咋样?
livib
20 小时 13 分钟前
还需要时间沉淀
stonedongdong
20 小时 12 分钟前
@midsolo #5 同感,之前用起来确实很不错,但是最近体验差了。上周用 GLM-4.6 断断续续 3 天没整明白的需求,周六用 Sonnet 4.5 一天就搞定了
takanashisakura
20 小时 6 分钟前
性价比一点的话,可以考虑 sota 模型( claude ,gemini 这些)来进行系统设计,然后把需求拆分为小的功能点后,再让国产大模型来实现。
bronyakaka
19 小时 56 分钟前
最近 kimi k2 、gml4.6 、minimax 一起用,降智问题确实存在
Feedmo
19 小时 43 分钟前
@midsolo 背刺包 好贴切的名字
seven777
19 小时 24 分钟前
加上好的 prompt, 加上好的 instructions, 大模型之间从差距会缩小一些,尤其是好的 prompt 影响较大.
如果就是"一句话需求",那真得 Claude ,基本是遥遥领先的.
第二梯队的是 Grok@latest , Gemini@latest, ChatGpt@ latest.
国内产品基本是瘫子里面找瘸子,排序是豆包,千问,其他的都垃圾,无一例外.
usVexMownCzar
19 小时 8 分钟前
你可以用 GPT Claude Gemini 给你出方案,让国产 llm 去执行🤪
usVexMownCzar
19 小时 6 分钟前
还有 kimi 的 cli 工具,除了它自己的代码写的漂亮外,其他真就是垃圾,识别不了命令的/ 还是路径的/ ,无法识别图片。
furlxy
18 小时 48 分钟前
这几个,实际用下来感觉都差不多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1178906

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX