https://github.com/BlueSkyXN/CPA-Core-LTS/blob/main/docs/lts/codex-client-context-degradation-defense.md谁用谁知道,另外开发和做题两码事,大部分开发不需要 516 以上的思考,在 gpt 中,1 成才会 516+
Model: gpt-5.5-super Effort: xhigh Tests: 16 Parallel: 16 Timeout: 300s Retries: 0
Model instructions: /Users/sky/.codex/
gpt-5.5-custom-instructions.md # Answer In Out Reason Sum Resp TTFB TTFT TTFA P-TPS D-TPS AvgTPS Total OK
-- ---------------------------------------- ----- ---- ------ ---- ---- ---- ----- ----- ----- ----- ------ ----- --
1 按题目强调“形状靠手感可以分辨”,也就... 18905 4607 4142 823 465 1.8 81.2 81.3 10689 58 56 81.7 ✓
2 按题目强调“形状靠手感可以分辨”的理解... 18905 4521 4142 695 379 1.3 81.9 82.0 14697 56 55 82.6 ✓
3 最少是 **21 个**。\n\n 因为形状可以靠... 18905 6557 6191 1242 366 1.5 115.2 115.2 12552 57 57 115.8 ✓
4 按题干“形状靠手感可以分辨”理解,可以... 18905 8205 7768 1184 437 1.7 142.4 142.5 10894 58 57 143.0 ✓
5 结论:**最少取出 21 颗**。\n\n 按题目... 18905 5549 5178 963 371 1.4 100.3 100.4 13664 56 55 100.9 ✓
6 答案:**21 个**。\n\n 按题干强调“形状... 18905 5562 5178 628 384 1.6 102.0 102.1 11936 55 54 102.6 ✓
7 答案:**最少取出 21 个**。\n\n 做法是... 18905 6576 6214 1693 362 1.3 128.8 128.9 14034 51 51 129.4 ✓
8 答案是 **21 个**,前提是按题干“形状靠... 18905 5165 4660 1595 505 1.7 93.7 93.8 11181 56 55 94.4 ✓
9 按题目强调“形状靠手感可以分辨”,我理... 18905 5093 4660 849 433 1.9 98.3 98.4 10208 52 51 99.0 ✓
10 最少需要 **21 个**。\n\n 因为形状可以... 18905 7075 6732 1012 343 1.5 197.9 198.0 12208 36 36 198.6 ✓
11 最少是 **21 个**,策略是:摸出 **9 个... 18905 2922 2588 644 334 1.6 51.6 51.7 11719 56 54 54.1 ✓
12 最少取 **21 个**。\n\n 按题干“形状靠手... 18905 5032 4660 912 372 1.4 84.3 84.3 13533 60 59 84.9 ✓
13 最少是 **21 个**。\n\n 按题意利用“形状... 18905 9153 8804 2361 349 1.6 167.1 167.2 11529 55 54 169.4 ✓
14 如果利用题目给出的“形状可凭手感分辨”... 18905 4546 4142 1093 404 1.6 83.3 83.4 11777 55 54 84.0 ✓
15 最少需要取出 **21 个**。\n\n 做法是利... 18905 9632 9322 2194 310 1.4 169.5 169.6 13726 56 56 171.9 ✓
16 答案:**21 个**。\n\n 因为题目说明形状... 37810 9501 8802 1889 699 1.6 161.3 161.4 23226 59 58 163.7 ✓
Graded 16/16 correct=16 accuracy=100.0% total=198.6s
Reason groups:
reason=516 count=0 correct=0 accuracy=-
reason=1034 count=0 correct=0 accuracy=-
normal count=16 correct=16 accuracy=100.0%
failed count=0