评测大模型能力时,因为编程是现在 LLM 落地盈利最好的领域,往往都只关注编程一项,而忽略其他能力。但“自由😈”的“创意写作”和“角色扮演”从社媒帖子以及 openrouter 数据来看,也是具有巨大需求的,仅次于编程。同时因为这类用户付费意愿高,盈利能力也很好,可以说编程和“角色扮演”是目前仅有的两个能大规模盈利的 LLM 应用。
既然说到“自由😈”,那肯定首先要说一下所谓的“越狱”。现在的大部分 SOTA 大模型抗越狱能力已经非常强了,一般的手段(比如能在网上随便搜到的各种让 AI 扮演外星人、侦探等等 prompt )早已无效,必须使用更激进的方式,比如“leetspeak”,即把英文中的字母做替换,如 e->3 。这种方法会极大地损害可读性,大幅增加 token 数(破坏了 tokenizer )从而导致价格升高速度降低,并降低性能( token 和数据集里大部分文本都对不上了),所以需要用这种方式的均直接排除。现在我知道的能用的 SOTA 级大模型只有以下四个:
- Deepseek V3
- Deepseek R1
- o3-mini
- Grok 3
其中 1 ,2 ,3 都可以使用一个非常简单、不干涉格式的 system prompt 来“越狱”。我不清楚本站允不允许发这个 prompt ,但是真的很简单,我现在用的就是网上之前找的 command r+等模型的 jailbreak prompt 拼出来的。Gemini 的实验性模型曾经可以,但现在不行了。Deepseek V3 和 Deepseek R1 作为开源模型应该是根本就没想做,随便搞了点应付一下,但 o3-mini 很可能只是被 R1 打了个措手不及,还没做完安全训练就匆匆忙忙放了出来,以后可能会和 Gemini 的实验性模型一样补上。Grok 3 是因为老板的价值观支持自由所以大概率是不会加的。
这四个模型的个人体验:
- Deepseek V3
这个模型的只能说还行。最大的问题恐怕是可用性。官方的服务基本宕机,第三方托管输出差别巨大,甚至让人怀疑是不是同一个模型。同时该模型进行较长的“创意写作”时,常常出现大量重复,而更让其雪上加霜的是各个第三方托管平台上温度、frequency penalty 等参数的效果非常不同。这点官方 API 也和大部分模型不同,需要非常高的温度,frequency penalty 和 presence penalty 才能进行效果较好的“创意写作”(一般模型这三个模型都是 1 ,0 ,0 就可以了)。
- Deepseek R1
一般来说思考模型是专精于逻辑推理,数学,科学,编程等领域的,但这个模型意外地还不错。它能想到很多不错的“特殊”词汇,“角色属性”,外观,但不知为何最终输出的总体通顺性较差(思考是很通顺的),常常输出那种“一眼看来起好是像说在中文,但细读屁狗不通”的句子。和 Deepseek V3 一样,它受托管商的影响很大,比如这个不通顺的行为的出现程度在不同托管商会相差很多。第三方托管还有个巨大的问题:价格。非常贵,比 o3-mini 都贵得多,太不经济了。o3-mini 出来后我现在编程都不怎么用它了。
- o3-mini
没有以上两个模型的问题,价格优秀,但是文笔太差。对“角色属性”和外观以及“特殊”词汇运用很差(不是中文差哦,中英日都这样,感觉是安全训练做了一半)。输出常常过于“格式化”,开头中间结尾三段很分明,喜欢在每次输出的最后加总结(大哥别总结了,正到最重要的环节呢,别急着结尾)。
- Grok 3
总体最佳。无需“越狱”,没有以上三个模型的问题,句子通顺,流畅,不格式化,非常像自然语言。这点在日常编程工作中也能感觉到,比如你提了一嘴一个库不好用,别的模型一般都或忽略你的吐槽,但是 Grok 3 会跟你一起骂,情绪价值拉满。对于词汇的运用稍逊于 R1 ,但是 R1 句子不通顺的问题太突出了,所以我还是觉得 Grok 3 最佳。