爱意满满的作品展示区。
Lobsang
1.27D

做了个 2026 世界杯概率预测站,顺手拿它做了个「LLM 能不能赢过统计模型」的预注册实验

  •  
  •   Lobsang · 8h 0m ago · 228 views

    站在这儿: https://wcelo.com

    起因是我对那些「 AI 预测世界杯」一直有点怀疑——大多没法证伪,赛后还能随便挑口径圆 回来。所以我干脆把它做成一个能打脸自己的实验:开赛前把三个假设写死、git commit 冻结、锁定赛后怎么算分,之后只许按这套规则结算。

    三个假设:

    1. 每天拿赛果更新模型,到底比「赛前冻结那版」强不强?(很多号称 live 的模型从不验这个)
    2. 概率准不准(校准误差 ECE ≤ 0.05 )?
    3. 我最想知道的:让大模型( Claude )每个比赛日前联网读伤病 / 停赛 / 预计首发 / 死亡 之组放水这些「软信息」,折成一个有界的实力修正,它能不能赢过一个 1997 年的纯 统计模型( Elo + 双泊松 + 10 万次蒙卡)?

    模型本身很常规、不炫技,好玩的是这套不能反悔的设计。也把我们的概率和 Polymarket / Stake 的盘口摆一起,但不指望赢市场——人家有伤病和内幕,我没有,输给它才正常。

    说实话我的先验是「大模型多半只加噪声」,但我按最强形态把它实现了,免得验证变成 自我实现。方法和预注册都在站内 /method 。

    小组赛今晚开打,欢迎来拍,尤其第 3 条的设计。

    yinanc
        1
    yinanc  
       5h 4m ago
    repo 咋 404 了,想参考下架构
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1106 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 18:27 · PVG 02:27 · LAX 11:27 · JFK 14:27
    ♥ Do have faith in what you're doing.