V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
silenceboychen
V2EX  ›  程序员

那个大模型编码能力最好?

  •  1
     
  •   silenceboychen · 19 天前 · 9070 次点击

    在编码领域,哪些大模型的能力比较强?目前一直都在用 claude-3.7-sonnet

    100 条回复    2025-05-01 19:05:18 +08:00
    risan
        1
    risan  
       19 天前
    那显然 chatgpt
    TanKuku
        2
    TanKuku  
       19 天前
    感觉是 claude-3.7-sonnet 和 gemini 2.5 pro, 有时候也用 ds v3 做对比
    wxw752
        3
    wxw752  
       19 天前
    目前在用 gemini 2.5 pro
    raycool
        4
    raycool  
       19 天前
    各有优劣吧。
    totoro52
        5
    totoro52  
       19 天前   ❤️ 2
    大差不大差,关键是要怎么提示它,如何提问也是一门技术
    kkk1234567
        6
    kkk1234567  
       19 天前   ❤️ 1
    grok 3 感觉也很不错呢。
    mingzefei
        7
    mingzefei  
       19 天前
    claude3.7 速度太慢,gemini 速度和上下文更好。两个模型写的代码没看出太大区别。
    Promtheus
        8
    Promtheus  
       19 天前   ❤️ 5
    @risan 你是不是除了 chatgpt 没用过其他模型。。
    MagicalCarl
        9
    MagicalCarl  
       19 天前   ❤️ 1
    sentinelK
        10
    sentinelK  
       19 天前   ❤️ 4
    如果是前端界面,且有设计图,那么 gemini 2.5 pro 比 claude-3.7-sonnet-thinking 强一些。他对于图形界面逻辑的理解比其他大模型优秀。

    如果是在既有程序上的修改,或者 debug 。claude-3.7-sonnet-thinking 更理性一点,gemini 2.5 pro 有些过于激进。而且管的太多。

    btw:copilot 的 gemini 2.5 pro 明显有问题,至于说是故意的负优化还是提示词没写好,就不得而知了。
    godloveplay
        11
    godloveplay  
       19 天前
    grok3 用来设计方案,表结构都很不错。
    lrigi
        12
    lrigi  
       19 天前 via iPhone
    综合来讲 gemini2.5 pro 最好吧,但我一般就用 claude3.7
    xugj
        13
    xugj  
       19 天前
    vincentWdp
        14
    vincentWdp  
       19 天前
    o3
    lzd123
        15
    lzd123  
       19 天前
    gemini2.5 pro 体验确实不错,完成度很高
    hhharuka
        16
    hhharuka  
       19 天前   ❤️ 1
    Gemini 2.5pro
    Claude 3.7
    ddddd0
        17
    ddddd0  
       19 天前 via iPhone
    t0:
    o4mini
    gem2.5 pro
    o3
    locoz
        18
    locoz  
       19 天前   ❤️ 6
    通常情况下简单场景最优的:claude 3.5
    通常情况下有一定难度的场景最优的:claude 3.7 + 思考模式
    上下文少,只需要短输出的:gpt o4-mini
    上下文长度中等,可能需要较长输出,且有一定难度的:claude 3.7 + 思考模式
    上下文长度长,可能需要较长输出,但不怎么难的:gemini 2.5 pro + 思考模式
    上下文长度长,需要较长输出,还有难度的:要么拆分处理,要么 gpt o3 ,其他的犯病概率较高
    nunterr
        19
    nunterr  
       19 天前
    写代码:claude-3.7--,gemini 2.5 pro
    聊事件:grok3
    国内搜东西:腾讯元宝的 DeepSeek 联网版
    fxxkgw
        20
    fxxkgw  
       19 天前 via Android
    claude3.5 3.7
    fuckfaker
        21
    fuckfaker  
       19 天前   ❤️ 4
    @risan gpt 在 claude 面前,像个新兵蛋子
    herozzm
        22
    herozzm  
       19 天前
    claude-3.7-sonnet
    但是 gpt-4.1 好像更胜一筹,观察中
    kzfile
        23
    kzfile  
       19 天前
    同一个问题多问问,没有哪一家总是最优
    testliyu
        24
    testliyu  
       19 天前
    今天新出的 qwen3 可以试试
    zdw189803631
        26
    zdw189803631  
       19 天前
    claude-3.7-sonnet 和 gemini 2.5 pro !我们公司魔改 cline ,只留下这两个大模型
    GuluMashimaro
        27
    GuluMashimaro  
       19 天前
    用的 gemini 2.5 pro
    10 分钟弄了一个待办事项的 chrome 插件

    aHR0cHM6Ly9jaHJvbWV3ZWJzdG9yZS5nb29nbGUuY29tL2RldGFpbC8lRTUlQkUlODUlRTUlOEElOUUlRTQlQkElOEIlRTklQTElQjklRTglQjclOUYlRTglQjglQUElRTUlOTklQTgvaWpobG1paHBwZGxqY2JnZGtoaGlnaW1jaWZhbmNlbmc=
    InkStone
        28
    InkStone  
       19 天前   ❤️ 1
    @Linyz 还可以参考一下 openrouter 上的 ranking ,https://openrouter.ai/rankings/programming?view=week

    个人感觉 openrouter 上这个用钱投票更有说服力一点……排名靠前的这几个模型贵得令人发指,让我用我是一点都用不下手,能排到这么前面应该说明了实践中表现确实很好。
    daodao
        29
    daodao  
       19 天前
    claude 3.7 sonnet ,gemini 2.5 pro
    Linyz
        30
    Linyz  
       19 天前
    @InkStone 的确, 感觉比野榜靠谱哈哈
    daodao
        31
    daodao  
       19 天前
    @testliyu 已测,在开源里面可能还行。但在 claude 3.7 sonnet ,gemini 2.5 pro 跟前确实还只是弟弟
    huiyadanli
        32
    huiyadanli  
       19 天前
    Claude 3.5 Sonnet

    3.7 实际使用下来提升并不明显
    jonsmith
        33
    jonsmith  
       19 天前
    cursor 上 claude-3.7-sonnet 模型的使用体验更好,能写出符合预期的代码,可能工程能力更好点。
    gemini 2.5 pro 明显智力更高,用来回答一些技术问题或者写一些独立的代码块。
    viking602
        34
    viking602  
       19 天前
    claude 3.7s 目前代码工程最好的
    jiangbingo
        35
    jiangbingo  
       19 天前
    请问楼上诸位,你们在编辑器如何使用 gemini 2.5 pro ?
    wufumina
        36
    wufumina  
       19 天前
    我个人提名一下 grok3
    dcatfly
        37
    dcatfly  
       19 天前
    @MagicalCarl 这个榜单类似于跑分,可能可以参考为解决单个问题的能力,但在真实的工程上下文层面体感还是有区别
    dcatfly
        38
    dcatfly  
       19 天前
    @InkStone 用钱投票还是靠谱些,不过我感觉 roocode 比 cline 好用不少 但这里还是 cline 消耗的 token 多
    dcatfly
        39
    dcatfly  
       19 天前
    @dcatfly #37 https://lmarena.ai/ 榜单还可以参考这个
    jonty
        40
    jonty  
       19 天前
    @jiangbingo #35 cursur 可以使用。也可以使用 mcp 的服务
    leehaoze98
        41
    leehaoze98  
       19 天前
    日常主要用 cursor 编写代码,一般情况用 Claude 3.7 足矣,复杂情况下 3.7 写出的代码不 Work ,换到 4.1 会有概率解决。

    再不 work 的情况,需要把背景、问题说明白,贴给 chatgpt ,多轮交互中,chatgpt 能给出一个 work 的方案
    cheman
        42
    cheman  
       19 天前
    claude 3.7 sonnet ,gemini 2.5 pro , deepseek v3. 在够用且不呆的情况下,ds v3 性价比好点,我用来开发小程序够用。如果想找便宜的 key ,可到 https://api.xlap.top 结合 vscode roocode 使用。
    Kason333
        43
    Kason333  
       19 天前
    claude
    sweat89
        44
    sweat89  
       19 天前
    就每一个人用 Grok3 ?
    我觉得蛮好用的
    shellcodecow
        45
    shellcodecow  
       19 天前
    claude-3.7-sonnet 用来写脚本和代码很不错
    jonyJJ
        46
    jonyJJ  
       19 天前
    Grok3 挺好用的,51 过后可以用 grok 3.5 了 美滋滋
    xing7673
        47
    xing7673  
       19 天前
    @herozzm 4.1 不行,虽然代码输出更简洁,但是容易出问题,windsurf 里我都是用 claude 3.7 或者 gemini 来纠正它的问题
    PositionZero
        48
    PositionZero  
       19 天前
    @InkStone OpenRouter 的 ranking 只是说用的人多,不一定能力强啊。Gemini 2.0 Flash 排在 Claude 3.7 Sonnet (thinking) 前面是因为 Gemini 2.0 Flash 更便宜。
    aider 的这个榜不错,既有编程准确度,也有成本 https://aider.chat/docs/leaderboards/ 。
    eroneko
        49
    eroneko  
       19 天前
    cursor+o4-mini 很够用了,而且目前是免费的,需要大上下文的先全部塞给 Gemini 2.5 Pro 让它规划要修改的地方,然后丢给 o4-mini 执行。
    kasusa
        50
    kasusa  
       19 天前
    @InkStone 用钱投票 666
    InkStone
        51
    InkStone  
       19 天前
    @PositionZero 这个是 benchmark 的测试结果,不是投票结果吧。说实话,相比 benchmark ,我还是更倾向于相信大家实践后做出的选择。

    价格肯定有很大影响,但 openrouter 上最靠前的 3.7 和 2.5 都很贵,感觉还是能说明一些问题的。
    azarasi
        52
    azarasi  
       19 天前
    gemini 2.5 pro, 1M 长上下文,很多程序都可以全部项目代码塞进去
    qiaobeier
        53
    qiaobeier  
       19 天前
    @Linyz #25 Gemini 2.5 那么高了吗?我切换下试试
    Gilfoyle26
        54
    Gilfoyle26  
       19 天前
    我觉的要看语言,新的语言,新的库往往不行。
    AI 好像对 python ,js ,支持的比较好
    remember5
        55
    remember5  
       19 天前
    claude-3.7-sonnet
    OldActorsSmile
        56
    OldActorsSmile  
       19 天前
    claude-3.7-sonnet-thinking
    mumbler
        57
    mumbler  
       19 天前
    无脑 gemini 2.5 pro 即可,其他模型都差 gemini 一大截
    silencelixing
        58
    silencelixing  
       19 天前
    1. Claude 3.7 Sonnet
    2. Gemini 2.5 Pro
    答案几乎是确定的,这两个断层的领先。
    鉴于 Gemini 2.5 Pro 价格低,甚至可以免费薅,首选 Gemini 2.5 Pro
    富哥可以用 Claude 3.7 Sonnet
    boyzhang
        59
    boyzhang  
       19 天前
    @wxw752 grok 怎么样
    Plutooo
        60
    Plutooo  
       19 天前
    太久没看这方面内容了,没想到 gemini 都后来居上了
    zhy0216
        61
    zhy0216  
       19 天前
    claude-3.7-sonnet 第一
    这个测评 https://roocode.com/evals
    liulicaixiao
        62
    liulicaixiao  
       19 天前
    @sweat89 大家都是在编辑器里用,grok 3 的 api 出的太晚了,而且不在默认模型里
    RoccoShi
        63
    RoccoShi  
       19 天前
    claude 3.7 个人感觉还是比 gemini 2.5 pro 厉害一点,但是后者上下文更长,可以一起用
    599lee
        64
    599lee  
       19 天前
    个人觉得 grok 3 和 claude 3.7 比较强,偶尔用下 gemini 2.5 。前几天我拿了两个数据丢给 gemini 2.5 ,它不用我给的数,它自己编,非常优秀👍
    lnmxy
        65
    lnmxy  
       19 天前
    qwen3
    amazingfate
        66
    amazingfate  
       19 天前
    gpt4.1 吧 用着比 claude3.7 舒服。
    然后还可以用 gemini 2.5pro 二次写,可以写很长也很准。但是 gemini 指令遵循不如前两者。
    love2328
        67
    love2328  
       19 天前
    @lnmxy 并不怎么样的
    xinru
        68
    xinru  
       19 天前 via iPhone
    关注一下代码 AI 工具推荐
    anivie
        69
    anivie  
       19 天前
    Gemini 2.5pro ,我的体感是断崖领先其它所有,包括 claude ,claude 又要领先剩下的一轮
    zisen
        70
    zisen  
       18 天前 via iPhone
    claude3.7 有时候会提取提示词中的关键词然后直接输出缓存中的答案,也不管用户表达的是不是真的这个意思,反正一股脑儿输出就完事了
    Vancion
        71
    Vancion  
       18 天前
    应该把具体哪种语言也带上吧
    kergee
        72
    kergee  
       18 天前
    grok3 150 美金感觉赚了
    twinsant
        73
    twinsant  
       18 天前
    abellis
        74
    abellis  
       18 天前
    一个稍微复杂点的 sql 查询,同样的描述,只有 Gemini 2.5pro 一次给出了正确答案,claude ,gpt 管头不顾腚,总是差一点
    Wkj1998
        75
    Wkj1998  
       18 天前 via Android
    Claude3.7 、Gemini2.5Pro ,前者比较老实,老老实实按照你的需求编写代码,后者经常有自己独特的想法,一个编码需求,Claude3.7 输出 12 行代码,Gemini2.5Pro 会把各种因素考虑进去,最后给你输出 32 行代码
    klo424
        76
    klo424  
       18 天前
    我一般用 Cursor 的 Claude3.7
    wnpllrzodiac
        77
    wnpllrzodiac  
       18 天前 via Android
    c++大项目,修 bug 哪个模型好?
    wnpllrzodiac
        78
    wnpllrzodiac  
       18 天前 via Android
    qt 有界面图,想把界面用 ui 文件复刻出来,哪个模型好
    dreamage
        79
    dreamage  
       18 天前
    截至目前 claude 41 票 gemini 39 票 遥遥领先
    xz410236056
        80
    xz410236056  
       18 天前   ❤️ 1
    @TanKuku 目前感觉 2.5pro 强于克劳德,但是有时候降智
    Hajar123
        81
    Hajar123  
       18 天前
    @xing7673 #47 windsurf 对比 cursor 如何
    XuanYuan
        82
    XuanYuan  
       18 天前
    我以前用 Claude ,现在用 Grok
    NATransfer
        83
    NATransfer  
       18 天前
    gpt 4.1o 不错
    csfreshman
        84
    csfreshman  
       18 天前
    编码能力个人用过的最好的应该是 Claude 3.7 Sonnet
    Daybyedream
        85
    Daybyedream  
       18 天前
    gemini 2.5 pro 好像也还行
    seven777
        86
    seven777  
       18 天前
    @locoz #18 "上下文长度长,需要较长输出,还有难度的:要么拆分处理,要么 gpt o3 ,其他的犯病概率较高" 这个有测试经验?😁
    我一般都是 Claude 3.7 thingking 不变(GitHub copilot 里面懒得换.), 也偶尔犯大病.
    hunk
        87
    hunk  
       18 天前
    我粗糙的以为,新出的会更好一点点,学习的资料不断增加,所有显示出有差异,但基本书写,应该差别不大。
    现在选型是难,不断有新东西,难以决断。
    Strive123456
        88
    Strive123456  
       18 天前
    jamos
        89
    jamos  
       18 天前
    claude-3.7-sonnet 和 gemini 2.5 pro 既然都推荐这 2 个, 怎么使用呢,买 api 还是免费撸
    quietDown
        90
    quietDown  
       18 天前
    claude3.7sonnet thinking 和 gemini2.5pro 是日常开发用的最多的两个,gemini2.5pro 在上下文表现上更强,claude3.7 我个人感觉在一些项目设计上会更好一点,我会拿来设计技术方案,但是最近时长感觉降智。目前两个会结合着用。
    testisgood
        91
    testisgood  
       18 天前
    我以前对比过 claude-3.7-sonnet 和豆包,明显 claude 强很多,于是我一直用 claude 。结果这次对 claude-3.7-sonnet 产出的代码质量不满意,于是试用了一下 deepseek 和 qwen3 ,结果发现,起码在我碰到的这个问题上 deepseek 和 qwen3 编出的代码都明显比 claude-3.7-sonnet 更好。
    locoz
        93
    locoz  
       18 天前
    @seven777 #86 是实际试过得出的结论,这种场景理论上 gemini 2.5 pro 上下文长,理应输出结果更好,但实际会因为它喜欢忽略一些“不重要”的东西,并且指令遵循性比其他的稍弱,就导致结果反而会犯病;而 claude 3.7 在上下文过长的情况下也会忽略一些东西,导致出问题。但 gpt o3 可能是内部有工程优化之类的处理,基本还是能不犯病输出。

    gemini 主要的问题还是指令遵循性,很多时候喜欢自作主张瞎操作,不瞎操作的话其实只要是长上下文都可以用 gemini 。
    eBPF
        94
    eBPF  
       18 天前
    - https://aider.chat/docs/leaderboards/
    - https://openrouter.ai/rankings/programming?view=month
    paynezhuang
        95
    paynezhuang  
       18 天前
    写代码用 claude3.7 ,问问题用 grok
    Memoriae
        96
    Memoriae  
       18 天前
    首先排除掉所有蒸馏模型,幻觉偏差太严重,综合来看 gemini 2.5 pro 不错。
    ydirel
        97
    ydirel  
       18 天前
    @TanKuku dsV3 主要便宜,哈哈哈哈
    skymanv2
        98
    skymanv2  
       18 天前
    请问你们的大模型是怎么调用的?是用 cursor 里面的吗?
    sickoo
        99
    sickoo  
       18 天前
    主要 claude3.7 但是不能拖太长,幻觉特别严重,最主要还是一不小心往里面塞屎
    malagebidi
        100
    malagebidi  
       17 天前
    claude 3.7 强于 gemini 2.5 pro
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   875 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 19:34 · PVG 03:34 · LAX 12:34 · JFK 15:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.