V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
LaTero
V2EX  ›  OpenAI

大模型“自由”的“创意写作”和“角色扮演”能力简评(TLDR: Grok3 最强)

  •  
  •   LaTero · 1 天前 · 439 次点击

    评测大模型能力时,因为编程是现在 LLM 落地盈利最好的领域,往往都只关注编程一项,而忽略其他能力。但“自由😈”的“创意写作”和“角色扮演”从社媒帖子以及 openrouter 数据来看,也是具有巨大需求的,仅次于编程。同时因为这类用户付费意愿高,盈利能力也很好,可以说编程和“角色扮演”是目前仅有的两个能大规模盈利的 LLM 应用。

    既然说到“自由😈”,那肯定首先要说一下所谓的“越狱”。现在的大部分 SOTA 大模型抗越狱能力已经非常强了,一般的手段(比如能在网上随便搜到的各种让 AI 扮演外星人、侦探等等 prompt )早已无效,必须使用更激进的方式,比如“leetspeak”,即把英文中的字母做替换,如 e->3 。这种方法会极大地损害可读性,大幅增加 token 数(破坏了 tokenizer )从而导致价格升高速度降低,并降低性能( token 和数据集里大部分文本都对不上了),所以需要用这种方式的均直接排除。现在我知道的能用的 SOTA 级大模型只有以下四个:

    1. Deepseek V3
    2. Deepseek R1
    3. o3-mini
    4. Grok 3 其中 1 ,2 ,3 都可以使用一个非常简单、不干涉格式的 system prompt 来“越狱”。我不清楚本站允不允许发这个 prompt ,但是真的很简单,我现在用的就是网上之前找的 command r+等模型的 jailbreak prompt 拼出来的。Gemini 的实验性模型曾经可以,但现在不行了。Deepseek V3 和 Deepseek R1 作为开源模型应该是根本就没想做,随便搞了点应付一下,但 o3-mini 很可能只是被 R1 打了个措手不及,还没做完安全训练就匆匆忙忙放了出来,以后可能会和 Gemini 的实验性模型一样补上。Grok 3 是因为老板的价值观支持自由所以大概率是不会加的。

    这四个模型的个人体验:

    1. Deepseek V3 这个模型的只能说还行。最大的问题恐怕是可用性。官方的服务基本宕机,第三方托管输出差别巨大,甚至让人怀疑是不是同一个模型。同时该模型进行较长的“创意写作”时,常常出现大量重复,而更让其雪上加霜的是各个第三方托管平台上温度、frequency penalty 等参数的效果非常不同。这点官方 API 也和大部分模型不同,需要非常高的温度,frequency penalty 和 presence penalty 才能进行效果较好的“创意写作”(一般模型这三个模型都是 1 ,0 ,0 就可以了)。
    2. Deepseek R1 一般来说思考模型是专精于逻辑推理,数学,科学,编程等领域的,但这个模型意外地还不错。它能想到很多不错的“特殊”词汇,“角色属性”,外观,但不知为何最终输出的总体通顺性较差(思考是很通顺的),常常输出那种“一眼看来起好是像说在中文,但细读屁狗不通”的句子。和 Deepseek V3 一样,它受托管商的影响很大,比如这个不通顺的行为的出现程度在不同托管商会相差很多。第三方托管还有个巨大的问题:价格。非常贵,比 o3-mini 都贵得多,太不经济了。o3-mini 出来后我现在编程都不怎么用它了。
    3. o3-mini 没有以上两个模型的问题,价格优秀,但是文笔太差。对“角色属性”和外观以及“特殊”词汇运用很差(不是中文差哦,中英日都这样,感觉是安全训练做了一半)。输出常常过于“格式化”,开头中间结尾三段很分明,喜欢在每次输出的最后加总结(大哥别总结了,正到最重要的环节呢,别急着结尾)。
    4. Grok 3 总体最佳。无需“越狱”,没有以上三个模型的问题,句子通顺,流畅,不格式化,非常像自然语言。这点在日常编程工作中也能感觉到,比如你提了一嘴一个库不好用,别的模型一般都或忽略你的吐槽,但是 Grok 3 会跟你一起骂,情绪价值拉满。对于词汇的运用稍逊于 R1 ,但是 R1 句子不通顺的问题太突出了,所以我还是觉得 Grok 3 最佳。
    3 条回复    2025-02-21 21:36:10 +08:00
    cheng6563
        1
    cheng6563  
       23 小时 17 分钟前
    比写作你不带上 Claude ?
    LaTero
        2
    LaTero  
    OP
       23 小时 9 分钟前 via Android
    @cheng6563 最不自由的就数 Claude 了。别说写作了,有次我问它加密数据都被半拒绝了。聊天记录我已经清掉了,但它的回复大意就是用加密从政府隐藏信息是可能有害的,所以只能给我一点大致步骤,拒绝提供细节。
    wxiao333
        3
    wxiao333  
       19 小时 1 分钟前
    Deepseek 至少中文写作调教方面还是有点东西,写出来的内容很 drama ,有时候感觉在炫技。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2944 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 08:37 · PVG 16:37 · LAX 00:37 · JFK 03:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.