大模型“自由”的“创意写作”和“角色扮演”能力简评(TLDR: Grok3 最强)

200 天前
 LaTero

评测大模型能力时,因为编程是现在 LLM 落地盈利最好的领域,往往都只关注编程一项,而忽略其他能力。但“自由😈”的“创意写作”和“角色扮演”从社媒帖子以及 openrouter 数据来看,也是具有巨大需求的,仅次于编程。同时因为这类用户付费意愿高,盈利能力也很好,可以说编程和“角色扮演”是目前仅有的两个能大规模盈利的 LLM 应用。

既然说到“自由😈”,那肯定首先要说一下所谓的“越狱”。现在的大部分 SOTA 大模型抗越狱能力已经非常强了,一般的手段(比如能在网上随便搜到的各种让 AI 扮演外星人、侦探等等 prompt )早已无效,必须使用更激进的方式,比如“leetspeak”,即把英文中的字母做替换,如 e->3 。这种方法会极大地损害可读性,大幅增加 token 数(破坏了 tokenizer )从而导致价格升高速度降低,并降低性能( token 和数据集里大部分文本都对不上了),所以需要用这种方式的均直接排除。现在我知道的能用的 SOTA 级大模型只有以下四个:

  1. Deepseek V3
  2. Deepseek R1
  3. o3-mini
  4. Grok 3 其中 1 ,2 ,3 都可以使用一个非常简单、不干涉格式的 system prompt 来“越狱”。我不清楚本站允不允许发这个 prompt ,但是真的很简单,我现在用的就是网上之前找的 command r+等模型的 jailbreak prompt 拼出来的。Gemini 的实验性模型曾经可以,但现在不行了。Deepseek V3 和 Deepseek R1 作为开源模型应该是根本就没想做,随便搞了点应付一下,但 o3-mini 很可能只是被 R1 打了个措手不及,还没做完安全训练就匆匆忙忙放了出来,以后可能会和 Gemini 的实验性模型一样补上。Grok 3 是因为老板的价值观支持自由所以大概率是不会加的。

这四个模型的个人体验:

  1. Deepseek V3 这个模型的只能说还行。最大的问题恐怕是可用性。官方的服务基本宕机,第三方托管输出差别巨大,甚至让人怀疑是不是同一个模型。同时该模型进行较长的“创意写作”时,常常出现大量重复,而更让其雪上加霜的是各个第三方托管平台上温度、frequency penalty 等参数的效果非常不同。这点官方 API 也和大部分模型不同,需要非常高的温度,frequency penalty 和 presence penalty 才能进行效果较好的“创意写作”(一般模型这三个模型都是 1 ,0 ,0 就可以了)。
  2. Deepseek R1 一般来说思考模型是专精于逻辑推理,数学,科学,编程等领域的,但这个模型意外地还不错。它能想到很多不错的“特殊”词汇,“角色属性”,外观,但不知为何最终输出的总体通顺性较差(思考是很通顺的),常常输出那种“一眼看来起好是像说在中文,但细读屁狗不通”的句子。和 Deepseek V3 一样,它受托管商的影响很大,比如这个不通顺的行为的出现程度在不同托管商会相差很多。第三方托管还有个巨大的问题:价格。非常贵,比 o3-mini 都贵得多,太不经济了。o3-mini 出来后我现在编程都不怎么用它了。
  3. o3-mini 没有以上两个模型的问题,价格优秀,但是文笔太差。对“角色属性”和外观以及“特殊”词汇运用很差(不是中文差哦,中英日都这样,感觉是安全训练做了一半)。输出常常过于“格式化”,开头中间结尾三段很分明,喜欢在每次输出的最后加总结(大哥别总结了,正到最重要的环节呢,别急着结尾)。
  4. Grok 3 总体最佳。无需“越狱”,没有以上三个模型的问题,句子通顺,流畅,不格式化,非常像自然语言。这点在日常编程工作中也能感觉到,比如你提了一嘴一个库不好用,别的模型一般都或忽略你的吐槽,但是 Grok 3 会跟你一起骂,情绪价值拉满。对于词汇的运用稍逊于 R1 ,但是 R1 句子不通顺的问题太突出了,所以我还是觉得 Grok 3 最佳。
2463 次点击
所在节点    OpenAI
8 条回复
cheng6563
200 天前
比写作你不带上 Claude ?
LaTero
200 天前
@cheng6563 最不自由的就数 Claude 了。别说写作了,有次我问它加密数据都被半拒绝了。聊天记录我已经清掉了,但它的回复大意就是用加密从政府隐藏信息是可能有害的,所以只能给我一点大致步骤,拒绝提供细节。
wxiao333
200 天前
Deepseek 至少中文写作调教方面还是有点东西,写出来的内容很 drama ,有时候感觉在炫技。
jjwjiang
197 天前
没错,DS 的温度需要拉很高,否则会大量重复……grok 3 我只能说太猛了……不仅没限制还能很容易 get 到你想要他发展的点……
Themyth
196 天前
我就好奇你的 grok3 的 prompt 是什么 以及 system prompt 怎么用啊,直接在输入框里面写?
LaTero
196 天前
@Themyth 直接写啊,grok.com 网站上。我看到有人说会被拒绝,可能是在推特里用的?反正我在官网没什么问题。
LaTero
196 天前
@Themyth 哦,等等,你的意思是 grok 3 怎么加 system prompt ?这个需要 api ,现在加不了。但是并不需要加,直接让它写就行了,我都很直白。
Themyth
196 天前
@LaTero 哦,好吧……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1113279

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX