V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
LaTero
V2EX  ›  Twitter

Grok 3 很强

  •  2
     
  •   LaTero · 3 天前 · 3847 次点击
    我没给马斯克充钱,所以只能在 LMArena 上免费试试。虽然输出经常会被截断,但是可以感觉它还是挺强的。随便测了几个问题,非思考模型能达到 o3-mini 的水平。比如我经常用来测新模型的问题:给一台发射固定速率炮弹的炮台设计瞄准程序,能按目标的速度进行线性预判。并不算是什么难题,而是有实用价值的工作中能经常见到的问题。这个问题有两个需要注意的点:1. 在炮弹移动时,目标也会移动。不能用目标当前距离来估算 time to hit 。2. 359°和 1°只差了两度:往负方向(左手系就是顺时针)旋转 2°即可,不需要往正方向旋转 358°。

    主流模型中,除了 Grok 3 之外的非思考模型全挂。以上提到的两点均错误。思考模型中,OpenAI 家的 o3-mini 完全正确,所以我就没浪费前去测 o1-pro 了。谷歌家的 Flash Thinking 和 Deepseek R1 搞定了第一点,第二点错误。Grok 3 是非思考模型中唯一一次两点都做对了的。而且这还是非正式版。现在出了的是 mini 版,普通版还在训练中,和 Gemini 的 experimental 模型性质差不多。LMArena 的是 mini 还是未完成的普通版还不清楚,但是效果真的不错:在 https://lmarena.ai/里点“Direct Chat”即可试用。
    27 条回复    2025-02-20 11:24:28 +08:00
    p7IySTldqB
        1
    p7IySTldqB  
       3 天前
    今年 AI 大爆发令人兴奋。
    chipipi
        2
    chipipi  
       3 天前   ❤️ 13
    “工作中常见到的炮弹问题”
    Satansickle
        3
    Satansickle  
       3 天前
    咋?老哥是华为驻非洲工程师?
    paopjian
        4
    paopjian  
       3 天前
    妈耶, 老哥是军工设计师么, 为什么会有弹道预测的问题
    mingtdlb
        5
    mingtdlb  
       3 天前
    怎么认为他很强?
    ![1739866530780.png]( https://cdn-fusion.imgcdn.store/i/2025/e9c270a4bd523838.png)
    mingtdlb
        6
    mingtdlb  
       3 天前
    @mingtdlb 我随便问的
    pppcx
        7
    pppcx  
       3 天前
    @mingtdlb #5
    大部分人判断 ai 强不强都是用自己比较专业的领域去问 ai 看回复是否和自己判断类似
    me1onsoda
        8
    me1onsoda  
       3 天前
    大模型好像都是发布一开始强无敌,然后开始降智了。大模型质量问题,应该要有个监管的机制。
    lthon
        9
    lthon  
       3 天前
    还在等 Claude 4
    sunny352787
        10
    sunny352787  
       3 天前
    哈哈哈哈哈哈这例子要吓死了,其实是做游戏的吧?
    LaTero
        11
    LaTero  
    OP
       3 天前
    LaTero
        12
    LaTero  
    OP
       3 天前
    @mingtdlb 判断字符本来就不是 AI 该做的事,因为原理上 AI 收到的都是 token ,一个 token 可能有好几个字。而且假如真的有了 AGI ,和人类一样的智力水平,你觉得它会浪费算力去数吗?假如是一个聪明的人类,他应该做的是使用工具。AGI 也应该是写一个程序去数,不是自己数。最近 AI 进步也都是在数学、逻辑推理等方面。
    phinex
        13
    phinex  
       3 天前 via Android
    @LaTero 哈哈 不是还以为是军工大佬
    hiveex
        14
    hiveex  
       3 天前
    Poe 用户等上线体验
    pizone
        15
    pizone  
       3 天前
    不知什么时候能用上 Grok 3 的 api ,还是有点期待。
    CodeAllen
        16
    CodeAllen  
       3 天前
    没必要问 AI 字符问题,这个跟 NLP 的 token 分词技术有关系,没什么意义。
    这就有点像一个人口头问你,计算“饕餮盛宴”这几个字有几个笔画,能当面正确写下这四个字的人都不多吧,还得数笔画,有什么意义?
    sunny352787
        17
    sunny352787  
       3 天前
    @LaTero 哎,同行的敏锐性~
    stone9527
        18
    stone9527  
       3 天前
    你问它,5.21 和 5.3 谁大
    LaTero
        19
    LaTero  
    OP
       3 天前   ❤️ 1
    @stone9527 没问题呀,现在主流的模型这个都不会错的吧。我平时主用 openrouter ,这个网站的 chatroom ,预设的几个问题就有 9.9 和 9.11 哪个大,还有 strawberry 里几个 r 。后者还有些模型会错,但是前者这样比大小的基本都是没问题的。
    pkoukk
        20
    pkoukk  
       3 天前
    强是很强..
    但是老🐴用了快 10 万张 h100 ,居然只获得了 1400 分出头,仅仅比 R1 强 40 多分,3%左右
    而且这么大的训练规模,预计参数量也不小,推理消耗估计也挺大
    有点不及预期了
    br00k
        21
    br00k  
       3 天前
    试了下,感觉没有多少差距。不及预期。
    me1onsoda
        22
    me1onsoda  
       3 天前
    @pkoukk 不是说 20w ,要加到 100w 吗
    yukino
        23
    yukino  
       3 天前 via Android
    要不你跟隔壁 openai 楼的老哥打一架
    kaedea
        24
    kaedea  
       2 天前 via Android
    做一下今年考公的行测题试试
    Ehend
        25
    Ehend  
       2 天前
    编程领域感觉不如 chatgpt 和 deepseek
    gitxuzan
        26
    gitxuzan  
       1 天前
    编程方面不行,比 gpt 差
    gitxuzan
        27
    gitxuzan  
       1 天前
    deepseek 如果有这么强的算力,不是要排行老大了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2729 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 12:49 · PVG 20:49 · LAX 04:49 · JFK 07:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.