大模型“自由”的“创意写作”和“角色扮演”能力简评（TLDR： Grok3 最强）

评测大模型能力时，因为编程是现在 LLM 落地盈利最好的领域，往往都只关注编程一项，而忽略其他能力。但“自由😈”的“创意写作”和“角色扮演”从社媒帖子以及 openrouter 数据来看，也是具有巨大需求的，仅次于编程。同时因为这类用户付费意愿高，盈利能力也很好，可以说编程和“角色扮演”是目前仅有的两个能大规模盈利的 LLM 应用。

既然说到“自由😈”，那肯定首先要说一下所谓的“越狱”。现在的大部分 SOTA 大模型抗越狱能力已经非常强了，一般的手段（比如能在网上随便搜到的各种让 AI 扮演外星人、侦探等等 prompt ）早已无效，必须使用更激进的方式，比如“leetspeak”，即把英文中的字母做替换，如 e->3 。这种方法会极大地损害可读性，大幅增加 token 数（破坏了 tokenizer ）从而导致价格升高速度降低，并降低性能（ token 和数据集里大部分文本都对不上了），所以需要用这种方式的均直接排除。现在我知道的能用的 SOTA 级大模型只有以下四个：

Deepseek V3
Deepseek R1
o3-mini
Grok 3 其中 1 ，2 ，3 都可以使用一个非常简单、不干涉格式的 system prompt 来“越狱”。我不清楚本站允不允许发这个 prompt ，但是真的很简单，我现在用的就是网上之前找的 command r+等模型的 jailbreak prompt 拼出来的。Gemini 的实验性模型曾经可以，但现在不行了。Deepseek V3 和 Deepseek R1 作为开源模型应该是根本就没想做，随便搞了点应付一下，但 o3-mini 很可能只是被 R1 打了个措手不及，还没做完安全训练就匆匆忙忙放了出来，以后可能会和 Gemini 的实验性模型一样补上。Grok 3 是因为老板的价值观支持自由所以大概率是不会加的。

这四个模型的个人体验：

Deepseek V3 这个模型的只能说还行。最大的问题恐怕是可用性。官方的服务基本宕机，第三方托管输出差别巨大，甚至让人怀疑是不是同一个模型。同时该模型进行较长的“创意写作”时，常常出现大量重复，而更让其雪上加霜的是各个第三方托管平台上温度、frequency penalty 等参数的效果非常不同。这点官方 API 也和大部分模型不同，需要非常高的温度，frequency penalty 和 presence penalty 才能进行效果较好的“创意写作”（一般模型这三个模型都是 1 ，0 ，0 就可以了）。
Deepseek R1 一般来说思考模型是专精于逻辑推理，数学，科学，编程等领域的，但这个模型意外地还不错。它能想到很多不错的“特殊”词汇，“角色属性”，外观，但不知为何最终输出的总体通顺性较差（思考是很通顺的），常常输出那种“一眼看来起好是像说在中文，但细读屁狗不通”的句子。和 Deepseek V3 一样，它受托管商的影响很大，比如这个不通顺的行为的出现程度在不同托管商会相差很多。第三方托管还有个巨大的问题：价格。非常贵，比 o3-mini 都贵得多，太不经济了。o3-mini 出来后我现在编程都不怎么用它了。
o3-mini 没有以上两个模型的问题，价格优秀，但是文笔太差。对“角色属性”和外观以及“特殊”词汇运用很差（不是中文差哦，中英日都这样，感觉是安全训练做了一半）。输出常常过于“格式化”，开头中间结尾三段很分明，喜欢在每次输出的最后加总结（大哥别总结了，正到最重要的环节呢，别急着结尾）。
Grok 3 总体最佳。无需“越狱”，没有以上三个模型的问题，句子通顺，流畅，不格式化，非常像自然语言。这点在日常编程工作中也能感觉到，比如你提了一嘴一个库不好用，别的模型一般都或忽略你的吐槽，但是 Grok 3 会跟你一起骂，情绪价值拉满。对于词汇的运用稍逊于 R1 ，但是 R1 句子不通顺的问题太突出了，所以我还是觉得 Grok 3 最佳。