Opus 4.8 真的好难用!

4 小时 46 分钟前
 Danswerme

在 Claude Code 中使用 Opus 4.8 ,这几天一直遇到这些问题:

  1. 反应奇慢无比,间歇性一个问题思考 10 分钟以上仍然没有响应,必须手动停止对话然后 continue
  2. 频繁报错 The model's tool call could not be parsed (retry also failed)
  3. 输出中莫名夹杂着其他语言

刚才一次性同时出现了这三个问题,给我气笑了:

  Read 1 file (ctrl+o to expand)

● この Table 组件が核心。normalLayout propと、表格高度・doLayout の処理を確認します。

  Read 1 file (ctrl+o to expand)

● The model's tool call could not be parsed (retry also failed).

✻ Worked for 12m 32s

❯ continue

* Whatchamacalliting… (5m 51s · ↓ 1.7k tokens · almost done thinking)
1669 次点击
所在节点    Claude
20 条回复
Danswerme
4 小时 45 分钟前
怀念 4.6
zoharSoul
4 小时 45 分钟前
4.7 感觉就不如 4.6
FinnBai
4 小时 45 分钟前
非常赞同,4.8 这次更新真是太差劲了
zekeluii
4 小时 44 分钟前
我今天用了 一天 opus 4.8 ,很正常啊,沒遇到問題啊
zhuyao
4 小时 35 分钟前
哈哈哈,我今天也出现日文了
oouz
4 小时 30 分钟前
是的,出现日文的概率挺大的,我最近遇到好几次了。
而且,感觉逻辑性没有 codex 强,我今天用 Claude 写完一个需求,再让 Claude review 没发现问题,再使用 codex review 出来两个 bug ,把 bug 提供给 Claude 他自己也承认这两个 bug 真的存在。
Plutooo
4 小时 29 分钟前
一直在用 4.6 ,4.7 开始说的话已经听不懂了,一股 gpt5.4 的感觉
coderfee
4 小时 28 分钟前
哈哈哈,这谁能不被气笑。像已读乱回的同事。
mnoputd20adfadf3
4 小时 25 分钟前
我日本 韩文 都出现过 🤡 🤡 🤡
kpprotector
4 小时 4 分钟前
如果不加约束的话,日文、韩文、中文、英文会变来变去……
不如 4.6 + 1
leadfast
4 小时 2 分钟前
简单任务用 pi + deepseek 之后, 对比之下 claude code 太太太慢了
w568w
3 小时 55 分钟前
再补充个我遇到几次的 bug:模型有时会输出一大堆 tool calls ,但是不输出 finish 。于是从 API 角度来说,响应一直在进行,不给客户端返回结果的机会,模型就拿不到执行命令的结果。

而 Opus 4.8 会出现幻觉,认为自己拿到了空白输出,于是就能看到这种奇观:

================
(前略)

$ grep -R xxx ./

thinking: 奇怪,grep 没有返回任何结果,让我测试 Bash 工具是否正常。

$ ls -l .

$ echo ok

$ echo ====probing====

$ printf "yes\n"

$ echo PROBING_OK

thinking: 依然没有任何输出,Bash 工具可能存在问题。我需要向用户解释当前的工具状况。
vlink
3 小时 53 分钟前
我的体验是 4.7 不如 4.6 ,4.7 很恶心的点是输出中文时(文档、注释等地方)经常出现一些很不常用,很奇怪的词汇表达(「当前」->「目下」、「继续」->「续行」、「重新生成」->「再演」等)。以及某些词汇会出现像火星文一样,看字形能看出意思但是文字被替换的情况。我用的是 cursor 内的模型,模型肯定是正确的,感觉像是官方为了反蒸馏做了什么处理...
4.8 用下来基本没出现 4.7 的这种情况,但是整体的体验下来和 4.6 、4.7 没有明显的大提升。
chanssl
3 小时 53 分钟前
还在用 4.6
workbest
3 小时 50 分钟前
大模型瓶颈时代来了
teaguexiao
3 小时 48 分钟前
Opus 4.8 现在确实不稳定,我也遇到过类似的 tool call 解析失败,目前换回 Sonnet 4.5 反而更顺滑。重推理模型在 agentic 场景下容易超时,这不是你的求问方式有问题,就是这模型现阶段网络延迟太高。
jaoyina
3 小时 37 分钟前
4.8 出来 4.6 还能用吗?
bwnjnOEI
3 小时 30 分钟前
4.7 4.8 都会有但 4.8 尤为严重就是模型在回答中主动出现推理过程否定前面几句,感觉像是本应该在 tk 里的内容出现在普通回复里,像是他们的后训练在尝试不同的东西
zed1018
3 小时 22 分钟前
我今天遇到的是,在之前 memory 已经都交代过的情况下,甚至 CLAUDE.md 里都关联过的情况下,既不看 UI 设计图,也不看接口文档,直接硬编码实现 app 逻辑。
wenhuacode
2 小时 48 分钟前
用了一天,4.8 token 烧的太快

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1217077

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX