V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wxiao333
V2EX  ›  分享发现

本地化大模型部署又双叒要革命了,阿里开源 QwQ-32B,媲美 DeepSeek R1 性能

  •  
  •   wxiao333 · 4 天前 · 626 次点击
    阿里开源 QwQ-32B !以 1/21 小参数媲美 DeepSeek R1 性能,成本仅 1/10
    https://qwenlm.github.io/blog/qwq-32b/

    3 月 6 日,阿里通义千问 Qwen 团队推出推理模型——QwQ-32B 大语言模型。据官方介绍,这款仅有 320 亿参数的模型在性能上不仅能够媲美拥有 6710 亿参数的 DeepSeek-R1 (其中 370 亿被激活),更在某些测试中超越了对方。

    阿里 Qwen 团队表示,这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性,希望以此证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。

    除了基础推理能力外,QwQ-32B 还集成了与 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。

    根据官方披露的测试结果,QwQ-32B 在多项关键评测中表现卓越:

    在测试数学能力的 AIME24 评测集上,QwQ-32B 与 DeepSeek-R1 表现相当,远超 o1-mini 及同尺寸的 R1 蒸馏模型

    在评估代码能力的 LiveCodeBench 中,表现同样与 DeepSeek-R1 相当

    在 Meta 首席科学家杨立昆领衔的"最难 LLMs 评测榜"LiveBench 上,QwQ-32B 得分超越 DeepSeek-R1

    在谷歌等提出的指令遵循能力 IFEval 评测集中,成绩优于 DeepSeek-R1

    在加州大学伯克利分校等提出的评估准确调用函数或工具的 BFCL 测试中,同样超越 DeepSeek-R1
    MonikaCeng
        1
    MonikaCeng  
       4 天前 via iPhone
    M3 Mac 跑 32b 挺吃力
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3448 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 04:44 · PVG 12:44 · LAX 21:44 · JFK 00:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.