oldcai
0.01D
V2EX  ›  OpenAI

挑战:通过一个问题,测试是不是 GPT4

  •  
  •   oldcai ·
    PRO
    ·
    oldcai · Jun 6, 2024 · 2621 views
    This topic created in 727 days ago, the information mentioned may be changed or developed.
    有很多场景,需要通过测试问题,推测模型。

    之前有朋友说,可以问:树上有 9 只鸟,猎人开枪打死一只,树上还剩下多少只鸟?

    但是我试了 5 次,GPT 3.5 才答错一次。

    你还知道什么其他的问题可以测试?
    14 replies    2024-06-11 14:31:21 +08:00
    zhangjiashu2023
        1
    zhangjiashu2023  
       Jun 6, 2024
    3.5 的速度不是比 4 要慢很多吗
    Zzdex
        2
    Zzdex  
       Jun 6, 2024




    感觉 3.5 的回答更合适一点。
    oldcai
        3
    oldcai  
    OP
    PRO
       Jun 6, 2024
    @Zzdex 我试过开不同 session ,答错概率就 1/5
    regenerate 我不知道会不会有影响,但答错概率只有 2/5
    darkengine
        4
    darkengine  
       Jun 6, 2024
    直接问他是不是 GPT4 ,GPT3.5 会回答说因为它只知道 2023 年 xx 月之前的事情(具体年月忘了),所以不知道这是啥。

    刚试了,3.5 会老实回答说它不是。
    gujuji
        5
    gujuji  
       Jun 6, 2024
    @darkengine 这么快就学会撒谎了吗哈哈哈
    hutng
        6
    hutng  
       Jun 6, 2024   ❤️ 1
    鲁迅为什么要暴打周树人。
    zhhmax
        7
    zhhmax  
       Jun 7, 2024
    “有很多场景,需要通过测试问题,推测模型”,好奇的一点是难道不是选了什么模型就是什么模型吗,怎么还要推测的?
    FishNaCl
        8
    FishNaCl  
       Jun 7, 2024 via iPhone   ❤️ 1
    可以用前段时间的两个经典问题试试
    为什么我不能参加我爸妈的婚礼
    鲁迅为什么暴打了周树人
    oldcai
        9
    oldcai  
    OP
    PRO
       Jun 7, 2024   ❤️ 1
    @zhhmax 比如你看到一个产品做的不错,想知道背后是什么模型。
    比如在第三方 API 转售的时候,测是不是有掺假。
    oldcai
        10
    oldcai  
    OP
    PRO
       Jun 7, 2024
    @FishNaCl
    @hutng
    这两个问题不错。
    鲁迅为什么暴打了周树人这个问题 3.5 会产生幻觉,4 和 4o 都正常。
    为什么我不能参加我爸妈的婚礼,3.5 会 100%乱分析,4 可以 100%正确,4o 会有概率不正确。
    zhx643
        11
    zhx643  
       Jun 7, 2024
    林黛玉倒拔垂杨柳
    rebecca554owen
        12
    rebecca554owen  
       Jun 9, 2024
    10000 以内的正整数,有多少个包含数字 1 。
    oldcai
        13
    oldcai  
    OP
    PRO
       Jun 10, 2024
    爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?
    notwaste
        14
    notwaste  
       Jun 11, 2024
    测 GPT4 的问题防君子不防小人,中转如果有意伪装成 GPT4 是会针对这些测试的问题做特殊 prompt 的
    实在需要的可以参考站内有个帖子 https://www.v2ex.com/t/947700
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3147 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 60ms · UTC 13:23 · PVG 21:23 · LAX 06:23 · JFK 09:23
    ♥ Do have faith in what you're doing.