nomagick

百度文心和其他模型的一个重大的不同点

  •  
  •   nomagick · Nov 2, 2023 · 1674 views
    This topic created in 946 days ago, the information mentioned may be changed or developed.

    百度的模型是针对中文的,它的 Tokenizer 对英文进行编码的效率特别低,大概两个字母一个 token ,接近字符计数

    现在市面上其他的模型基本上是 BPE 编码,编码中文的效率相对低,token 大概是中文字符数*2 的程度

    总的来讲在其他模型里面中文水土不服,而在百度这里英文水土不服,而其水土不服的程度超过中文在其他模型的水土不服程度

    从结果看,用于 GPT 的英文 prompt 不能直接用于文心,prompt 必须改成中文,并且回复大概率也是中文,做不了国际化的出海应用,只能国内自己用。

    可以说是内循环的急先锋了。

    whileFalse
        1
    whileFalse  
       Nov 2, 2023 via Android
    中文的 prompt 能用于 gpt 吗?
    nomagick
        2
    nomagick  
    OP
       Nov 2, 2023
    @whileFalse 能啊怎么不能
    whileFalse
        3
    whileFalse  
       Nov 2, 2023 via Android
    那是不是 gpt 也直接用中文 prompt 就行了
    nomagick
        4
    nomagick  
    OP
       Nov 2, 2023 via Android
    @whileFalse 不是
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   963 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 22:40 · PVG 06:40 · LAX 15:40 · JFK 18:40
    ♥ Do have faith in what you're doing.