那个大模型编码能力最好?

142 天前
 silenceboychen

在编码领域,哪些大模型的能力比较强?目前一直都在用 claude-3.7-sonnet

11261 次点击
所在节点    程序员
100 条回复
Hajar123
141 天前
@xing7673 #47 windsurf 对比 cursor 如何
XuanYuan
141 天前
我以前用 Claude ,现在用 Grok
NATransfer
141 天前
gpt 4.1o 不错
csfreshman
141 天前
编码能力个人用过的最好的应该是 Claude 3.7 Sonnet
Daybyedream
141 天前
gemini 2.5 pro 好像也还行
seven777
141 天前
@locoz #18 "上下文长度长,需要较长输出,还有难度的:要么拆分处理,要么 gpt o3 ,其他的犯病概率较高" 这个有测试经验?😁
我一般都是 Claude 3.7 thingking 不变(GitHub copilot 里面懒得换.), 也偶尔犯大病.
hunk
141 天前
我粗糙的以为,新出的会更好一点点,学习的资料不断增加,所有显示出有差异,但基本书写,应该差别不大。
现在选型是难,不断有新东西,难以决断。
Strive123456
141 天前
jamos
141 天前
claude-3.7-sonnet 和 gemini 2.5 pro 既然都推荐这 2 个, 怎么使用呢,买 api 还是免费撸
quietDown
141 天前
claude3.7sonnet thinking 和 gemini2.5pro 是日常开发用的最多的两个,gemini2.5pro 在上下文表现上更强,claude3.7 我个人感觉在一些项目设计上会更好一点,我会拿来设计技术方案,但是最近时长感觉降智。目前两个会结合着用。
testisgood
141 天前
我以前对比过 claude-3.7-sonnet 和豆包,明显 claude 强很多,于是我一直用 claude 。结果这次对 claude-3.7-sonnet 产出的代码质量不满意,于是试用了一下 deepseek 和 qwen3 ,结果发现,起码在我碰到的这个问题上 deepseek 和 qwen3 编出的代码都明显比 claude-3.7-sonnet 更好。
silenceboychen
141 天前
locoz
140 天前
@seven777 #86 是实际试过得出的结论,这种场景理论上 gemini 2.5 pro 上下文长,理应输出结果更好,但实际会因为它喜欢忽略一些“不重要”的东西,并且指令遵循性比其他的稍弱,就导致结果反而会犯病;而 claude 3.7 在上下文过长的情况下也会忽略一些东西,导致出问题。但 gpt o3 可能是内部有工程优化之类的处理,基本还是能不犯病输出。

gemini 主要的问题还是指令遵循性,很多时候喜欢自作主张瞎操作,不瞎操作的话其实只要是长上下文都可以用 gemini 。
eBPF
140 天前
- https://aider.chat/docs/leaderboards/
- https://openrouter.ai/rankings/programming?view=month
paynezhuang
140 天前
写代码用 claude3.7 ,问问题用 grok
Memoriae
140 天前
首先排除掉所有蒸馏模型,幻觉偏差太严重,综合来看 gemini 2.5 pro 不错。
ydirel
140 天前
@TanKuku dsV3 主要便宜,哈哈哈哈
skymanv2
140 天前
请问你们的大模型是怎么调用的?是用 cursor 里面的吗?
sickoo
140 天前
主要 claude3.7 但是不能拖太长,幻觉特别严重,最主要还是一不小心往里面塞屎
malagebidi
139 天前
claude 3.7 强于 gemini 2.5 pro

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1128800

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX