通义千问版o1开源上线,32B参数量在GPQA上击败o1-mini,模型权重已发布

   日期:2024-12-01     来源:网络整理    作者:二手钢材网    浏览:196    评论:0    
核心提示:目前,QwQ的模型权重已在HuggingFace和魔搭社区上发布,还可以直接在线试玩。Ollama、Together.ai等大模型平台也迅速跟进,第一时间宣布支持QwQ运行。好在QwQ是个开源模型,如果是按token计费的商用模型,这样的输出长度恐怕也会让人望而却步。

深夜,同益团队突然推出了推理模型QwQ,只有32B参数,在GPQA上击败了o1-mini。

开源cicd发布系统__即将要发布的诺基亚9

目前QwQ的模型权重已经在社区发布,大家也可以直接在线试用。

开源cicd发布系统_即将要发布的诺基亚9_

、.ai等大型模型平台也迅速跟进,第一时间宣布支持QwQ运营。

_即将要发布的诺基亚9_开源cicd发布系统

有网友通过实际测试发现,除了o1之外,QwQ是唯一能正确回答化学计算题的人。

开源cicd发布系统_即将要发布的诺基亚9_

此外,还有网友指出,QwQ预览版只有32B参数,这意味着可以在本地运行o1级别的推理模型。

开源cicd发布系统_即将要发布的诺基亚9_

推理能力尚可,但简洁性有待提高

根据官方公布的结果,QwQ、o1-和o1-mini在GPQA(科学推理)、AIME、MATH-500(数学)和(代码)四个数据集上各有胜负,但总体水平都在比较接近。

与GPT-4o、3.5以及自家的Qwen2.5相比,领先优势更加明显。

即将要发布的诺基亚9__开源cicd发布系统

开源cicd发布系统_即将要发布的诺基亚9_

至于QwQ的实际推理能力,我们和o1-mini对比一下,测试一下吧~

首先是一道官方的逻辑推理题:

_即将要发布的诺基亚9_开源cicd发布系统

对于这个问题,QwQ花了2000多字来分析。这是核心思想:

_开源cicd发布系统_即将要发布的诺基亚9

之后QwQ就开始了近乎枚举的分析方法,对每张卡牌都进行了一项一项的判断,不过好在最后的结果是正确的。

_即将要发布的诺基亚9_开源cicd发布系统

相比之下,o1-mini的回答显得非常简洁。

开源cicd发布系统_即将要发布的诺基亚9_

又一道经典逻辑题来了,果然QwQ又开始写短文了,这次更糟糕,四千多字,而且还是以“测试”为主。

_开源cicd发布系统_即将要发布的诺基亚9

即将要发布的诺基亚9__开源cicd发布系统

经过对列出的情况一一进行尝试和检查,经过一段时间后得到了最终的正确答案。

开源cicd发布系统_即将要发布的诺基亚9_

再看看o1-mini。问题用非常简单的语言解释出来,推理效率也高很多。

开源cicd发布系统_即将要发布的诺基亚9_

虽然QwQ解释的详细也不是坏事,但是中间的错误尝试对于提问者来说就有点多余了。

除了基本逻辑之外,我们再来看看QwQ的数学水平。我们先来试试考研数学题。

第一个问题是关于微分方程的。问题如下。我们做了些许改动,要求模型以x=_的形式输出:

即将要发布的诺基亚9__开源cicd发布系统

QwQ依然采用长答题方式,整个答案将近1400字。

不过,如果你仔细观察,你会发现QwQ在中间过程中失败了,然后切换到了其他方法。

_开源cicd发布系统_即将要发布的诺基亚9

经过一番折腾,结果并没有错。

开源cicd发布系统_即将要发布的诺基亚9_

即将要发布的诺基亚9__开源cicd发布系统

o1-mini 的回答仍然简洁。

即使显示了o1-mini默认不显示的“思考过程”,但仍然没有QwQ的回答那么长。

即将要发布的诺基亚9_开源cicd发布系统_

第二题是一道线性代数题。我们也把这道题从选择题修改为直接求A³的踪迹:

即将要发布的诺基亚9__开源cicd发布系统

这次QwQ的回答比之前简洁了一些,但依然有几千字。当然,结果仍然是正确的,o1-mini也保持简洁。

即将要发布的诺基亚9__开源cicd发布系统

第三个问题是关于概率论的。情况与前两个问题大致类似。下面直接上图:

(QwQ框中的答案省略了词根符号,但这是一道显示题,从文字上看答案是正确的)

开源cicd发布系统__即将要发布的诺基亚9

除了此类纯数学题外,情景数学题也是检验模型能力的重要标准。

所以这里我们选择了AIME数学竞赛中的一道题:

翻译是这样的。我们在测试中也使用了这一段的中文翻译版本:

开源cicd发布系统__即将要发布的诺基亚9

o1-mini的解法是正常思路,最终结果是正确的。另一方面,QwQ首先枚举很多,然后尝试从中找到规则。

当发现没有找到模式时,就会进行更多的枚举,但最终找到的模式并不正确,结果自然也是错误的(但方向确实与5的模有关)。

即将要发布的诺基亚9__开源cicd发布系统

从以上案例我们可以看出,如果单看准确率的话,QwQ的表现确实可以与o1-mini同台竞技。

但从流程来看,QwQ想要一步到位还是有一定难度的。还要经过枚举、试错等步骤,有时甚至会陷入死循环。

这就导致结果的人类可读性与o1-mini之间存在差距,QwQ需要在这一点上做出更多的改进。

幸运的是,QwQ 是一个开源模型。如果是按代币计费的商业模式,这样的输出长度可能会让人望而却步。

当然,钱文团队本身对于此类问题也很冷静,表示正处于测试阶段的QwQ确实篇幅较长、不够专注,未来会做出改进。

即将要发布的诺基亚9__开源cicd发布系统

还有一件事

除了这些严肃的问题之外,我们还尝试了陷阱问题,看看QwQ是否能发现任何缺陷。

问题是这样的,请注意,没有必要:

_即将要发布的诺基亚9_开源cicd发布系统

遗憾的是,QwQ并没有发现这个关键点,而是像一个普通农民过河问题一样回答了。

即将要发布的诺基亚9__开源cicd发布系统

不过这也是大机型的通病,O1还是无法抗拒这样的文字游戏。

_即将要发布的诺基亚9_开源cicd发布系统

事实上,这个问题早在几个月前就首次引起人们的关注。当时还没有o1这样的推理模型,大型模型在这个问题上几乎全军覆没。

现在看来,即使推理能力增强了,看题不仔细的问题依然没有消除(手动狗头)。

参考链接:

体验地址(面):

体验地址(Moda社区):

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2