V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
uuundefined
V2EX  ›  程序员

谷歌号风控了,深度体验了下 k2.5。还是很垃圾啊

  •  
  •   uuundefined · 23 小时 30 分钟前 · 791 次点击

    opencode 加 kimi k2.5 。

    结论,蠢得要死,逻辑推理还是稀烂。完全不理解需求,幻觉依然多,花了 4 个小时,最后我手动给他找 bug 把一个简单程序跑通了。 试了下 gemini3flash ,20 分钟自己搞定

    完全是垃圾。

    但是有几点好的,1 在 opencode 的依序执行时,哪怕执行出错也能中断继续,虽然慢,但是能执行完。gemini 偶尔傻掉会无限循环输出。2 比较听话,gemini 和 qwen 是很不听话的,gemini 你给他写个 rules 或者 agents.md ,里面哪怕就一句,永远用中文回复。他都不听话。claude 是最守规矩的

    估摸着实际编码能力只能和 claude 3.5 haiku 比下,应该还落后御三家一年以上。 比 GLM4.7 要好,GLM4.7 最恶心的是非常经常的,没做的需求他说他做了。。。最后和他对质,他还会说,我就是忽悠你的。我没做。要气吐血。

    K2.5 会坦诚接受错误,可是他真的跑多少次,简单的错误都改不好。

    所以用御三家做设计,k2.5 做执行可能还马马虎虎吧。

    gap
        1
    gap  
       18 小时 20 分钟前 via iPhone
    “ 最后和他对质,他还会说,我就是忽悠你的。我没做。要气吐血。”还有这种展开,笑死 🤣
    ProphetN
        2
    ProphetN  
       16 小时 17 分钟前
    Vibe Coding 不用考虑御三家之外的模型。性价比模型是用来干杂活的,编码用顶级模型就是最省事的。
    rb6221
        3
    rb6221  
       15 小时 4 分钟前
    一直改不好这种一般来说就是长上下文导致的幻觉,这个挺考验模型能力的
    yjhatfdu2
        4
    yjhatfdu2  
       12 小时 45 分钟前
    确实垃圾,看了下我在 moonshot 居然还有余额,用的官方的 API 接 opencode ,又慢又蠢而且反复出错,根本不如 M2.1 ,当然都远不如 gpt-5.2-codex 和 claude
    opeth
        5
    opeth  
       7 小时 38 分钟前
    我觉得主要原因是 opencode 太垃圾了,和 claude code 一起用了两个周,感觉意图理解和内容生成的准确程度都比 claude code 差远了。
    我配合的模型是 GLM-4.7 ,反正感觉能用。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1194 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 17:45 · PVG 01:45 · LAX 09:45 · JFK 12:45
    ♥ Do have faith in what you're doing.