把 5.5 和 5.4 的 xhigh 做糖果测试对比, 5.5 完败

4 小时 26 分钟前
 hanbaoji

做糖果測試,5.5 对比 5.4 完败,感觉是不是有必要切回 5.4 继续用了。。。。

❯ python codex_candy_eval.py -m gpt-5.4 -r xhigh -n 5

Graded 5/5 correct=4 accuracy=80.0%

❯ python codex_candy_eval.py -m gpt-5.5 -r xhigh -n 5

Graded 5/5 correct=1 accuracy=20.0%

1019 次点击
所在节点    程序员
6 条回复
testsb
4 小时 5 分钟前
有另一个类似问题,有网友说 5.5 `测试显示绝大多数时候 high 的智商都比 xhigh 高` 😂

https://v2ex.com/t/1224353?p=1#reply20
hanbaoji
3 小时 35 分钟前
@testsb 但是 high 在这个测试中直接全军覆没了,更惨。。。5.6 快出来吧,拯救一下 codex
bellx
3 小时 3 分钟前
我一直用 5.5 xhigh😂
doraemonki
2 小时 28 分钟前
5.5 有 bug 或者说就是故意的,思考截断。用这个可以缓解 https://github.com/neteroster/CodexCont

相关 issue https://github.com/openai/codex/issues/30364
qxmqh
2 小时 28 分钟前
你这个测试没问题,到现在我仍然一直使用 5.4 。 我曾经深入对比过 5.5 和 5.4 。发现 5.4 的综合能力绝对比 5.5 强。
BlueSkyXN
2 小时 25 分钟前
https://github.com/BlueSkyXN/CPA-Core-LTS/blob/main/docs/lts/codex-client-context-degradation-defense.md

谁用谁知道,另外开发和做题两码事,大部分开发不需要 516 以上的思考,在 gpt 中,1 成才会 516+

Model: gpt-5.5-super Effort: xhigh Tests: 16 Parallel: 16 Timeout: 300s Retries: 0
Model instructions: /Users/sky/.codex/gpt-5.5-custom-instructions.md

# Answer In Out Reason Sum Resp TTFB TTFT TTFA P-TPS D-TPS AvgTPS Total OK
-- ---------------------------------------- ----- ---- ------ ---- ---- ---- ----- ----- ----- ----- ------ ----- --
1 按题目强调“形状靠手感可以分辨”,也就... 18905 4607 4142 823 465 1.8 81.2 81.3 10689 58 56 81.7 ✓
2 按题目强调“形状靠手感可以分辨”的理解... 18905 4521 4142 695 379 1.3 81.9 82.0 14697 56 55 82.6 ✓
3 最少是 **21 个**。\n\n 因为形状可以靠... 18905 6557 6191 1242 366 1.5 115.2 115.2 12552 57 57 115.8 ✓
4 按题干“形状靠手感可以分辨”理解,可以... 18905 8205 7768 1184 437 1.7 142.4 142.5 10894 58 57 143.0 ✓
5 结论:**最少取出 21 颗**。\n\n 按题目... 18905 5549 5178 963 371 1.4 100.3 100.4 13664 56 55 100.9 ✓
6 答案:**21 个**。\n\n 按题干强调“形状... 18905 5562 5178 628 384 1.6 102.0 102.1 11936 55 54 102.6 ✓
7 答案:**最少取出 21 个**。\n\n 做法是... 18905 6576 6214 1693 362 1.3 128.8 128.9 14034 51 51 129.4 ✓
8 答案是 **21 个**,前提是按题干“形状靠... 18905 5165 4660 1595 505 1.7 93.7 93.8 11181 56 55 94.4 ✓
9 按题目强调“形状靠手感可以分辨”,我理... 18905 5093 4660 849 433 1.9 98.3 98.4 10208 52 51 99.0 ✓
10 最少需要 **21 个**。\n\n 因为形状可以... 18905 7075 6732 1012 343 1.5 197.9 198.0 12208 36 36 198.6 ✓
11 最少是 **21 个**,策略是:摸出 **9 个... 18905 2922 2588 644 334 1.6 51.6 51.7 11719 56 54 54.1 ✓
12 最少取 **21 个**。\n\n 按题干“形状靠手... 18905 5032 4660 912 372 1.4 84.3 84.3 13533 60 59 84.9 ✓
13 最少是 **21 个**。\n\n 按题意利用“形状... 18905 9153 8804 2361 349 1.6 167.1 167.2 11529 55 54 169.4 ✓
14 如果利用题目给出的“形状可凭手感分辨”... 18905 4546 4142 1093 404 1.6 83.3 83.4 11777 55 54 84.0 ✓
15 最少需要取出 **21 个**。\n\n 做法是利... 18905 9632 9322 2194 310 1.4 169.5 169.6 13726 56 56 171.9 ✓
16 答案:**21 个**。\n\n 因为题目说明形状... 37810 9501 8802 1889 699 1.6 161.3 161.4 23226 59 58 163.7 ✓

Graded 16/16 correct=16 accuracy=100.0% total=198.6s
Reason groups:
reason=516 count=0 correct=0 accuracy=-
reason=1034 count=0 correct=0 accuracy=-
normal count=16 correct=16 accuracy=100.0%
failed count=0

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1225039

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX