阿里开源 QwQ-32B !以 1/21 小参数媲美 DeepSeek R1 性能,成本仅 1/10
https://qwenlm.github.io/blog/qwq-32b/3 月 6 日,阿里通义千问 Qwen 团队推出推理模型——QwQ-32B 大语言模型。据官方介绍,这款仅有 320 亿参数的模型在性能上不仅能够媲美拥有 6710 亿参数的 DeepSeek-R1 (其中 370 亿被激活),更在某些测试中超越了对方。
阿里 Qwen 团队表示,这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性,希望以此证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。
除了基础推理能力外,QwQ-32B 还集成了与 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
根据官方披露的测试结果,QwQ-32B 在多项关键评测中表现卓越:
在测试数学能力的 AIME24 评测集上,QwQ-32B 与 DeepSeek-R1 表现相当,远超 o1-mini 及同尺寸的 R1 蒸馏模型
在评估代码能力的 LiveCodeBench 中,表现同样与 DeepSeek-R1 相当
在 Meta 首席科学家杨立昆领衔的"最难 LLMs 评测榜"LiveBench 上,QwQ-32B 得分超越 DeepSeek-R1
在谷歌等提出的指令遵循能力 IFEval 评测集中,成绩优于 DeepSeek-R1
在加州大学伯克利分校等提出的评估准确调用函数或工具的 BFCL 测试中,同样超越 DeepSeek-R1