@
malagebidi #8 谬奖了,我修改一下之前的错误:
这个错了: 「 Elo 胜率公式:胜率 = 1 / (1 + 10^(分差/400))」
应该是: 「 Elo 得分公式:得分 = 1 / (1 + 10^(分差/400))」
因为 Elo 打分时有「胜」「负」「平」这 3 种。胜者得 1 分,负者得 0 分,平局各得 0.5 分。
我没有考虑平局,所以得出 10 次比赛里面,GLM5.1 也会对 Opus4.7 有 4 次战胜的情况。其实弱者得分,主要是从平局里面得来的(也不排除从战胜中得分,但比例应该很小,特别是分差大的情况下):
Elo 相差 10 分 得分 51.4% vs 得分 48.6%,A 胜率 2.9%,平局率 97.1%,
Elo 相差 50 分 57.1% 42.9% A 胜率 14.3%,平局率 85.7%
Elo 相差 100 分 64.0% 36.0% A 胜率 28.0%,平局率 72.0%
Elo 相差 200 分 76.0% 24.0% A 胜率 52.0%,平局率 48.0%
Elo 相差 400 分 90.9% 9.1% A 胜率 81.8%,平局率 18.2%
Elo 相差 800 分 99.0% 1.0% A 胜率 98.0%,平局率 2.0%
换成这种的话,GLM5.1 与 Opus4.7 差的 50 分意味着:在 20 次提问中,用户有 3 次觉得 Opus4.7 的答案比 GLM5.1 更好,其余 17 次,都很好。即 3 胜 vs 17 平。
可能这种情况更符合真实情况。