推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

通义千问版o1开源上线，32B参数量在GPQA上击败o1-mini，模型权重已发布

日期：2024-12-01 来源：网络整理作者：二手钢材网浏览：196 评论：0

核心提示：目前，QwQ的模型权重已在HuggingFace和魔搭社区上发布，还可以直接在线试玩。Ollama、Together.ai等大模型平台也迅速跟进，第一时间宣布支持QwQ运行。好在QwQ是个开源模型，如果是按token计费的商用模型，这样的输出长度恐怕也会让人望而却步。

深夜，同益团队突然推出了推理模型QwQ，只有32B参数，在GPQA上击败了o1-mini。

开源cicd发布系统__即将要发布的诺基亚9

目前QwQ的模型权重已经在社区发布，大家也可以直接在线试用。

开源cicd发布系统_即将要发布的诺基亚9_

、.ai等大型模型平台也迅速跟进，第一时间宣布支持QwQ运营。

_即将要发布的诺基亚9_开源cicd发布系统

有网友通过实际测试发现，除了o1之外，QwQ是唯一能正确回答化学计算题的人。

开源cicd发布系统_即将要发布的诺基亚9_

此外，还有网友指出，QwQ预览版只有32B参数，这意味着可以在本地运行o1级别的推理模型。

开源cicd发布系统_即将要发布的诺基亚9_

推理能力尚可，但简洁性有待提高

根据官方公布的结果，QwQ、o1-和o1-mini在GPQA（科学推理）、AIME、MATH-500（数学）和（代码）四个数据集上各有胜负，但总体水平都在比较接近。

与GPT-4o、3.5以及自家的Qwen2.5相比，领先优势更加明显。

即将要发布的诺基亚9__开源cicd发布系统

开源cicd发布系统_即将要发布的诺基亚9_

至于QwQ的实际推理能力，我们和o1-mini对比一下，测试一下吧~

首先是一道官方的逻辑推理题：

_即将要发布的诺基亚9_开源cicd发布系统

对于这个问题，QwQ花了2000多字来分析。这是核心思想：

_开源cicd发布系统_即将要发布的诺基亚9

之后QwQ就开始了近乎枚举的分析方法，对每张卡牌都进行了一项一项的判断，不过好在最后的结果是正确的。

_即将要发布的诺基亚9_开源cicd发布系统

相比之下，o1-mini的回答显得非常简洁。

开源cicd发布系统_即将要发布的诺基亚9_

又一道经典逻辑题来了，果然QwQ又开始写短文了，这次更糟糕，四千多字，而且还是以“测试”为主。

_开源cicd发布系统_即将要发布的诺基亚9

即将要发布的诺基亚9__开源cicd发布系统

经过对列出的情况一一进行尝试和检查，经过一段时间后得到了最终的正确答案。

开源cicd发布系统_即将要发布的诺基亚9_

再看看o1-mini。问题用非常简单的语言解释出来，推理效率也高很多。

开源cicd发布系统_即将要发布的诺基亚9_

虽然QwQ解释的详细也不是坏事，但是中间的错误尝试对于提问者来说就有点多余了。

除了基本逻辑之外，我们再来看看QwQ的数学水平。我们先来试试考研数学题。

第一个问题是关于微分方程的。问题如下。我们做了些许改动，要求模型以x=_的形式输出：

即将要发布的诺基亚9__开源cicd发布系统

QwQ依然采用长答题方式，整个答案将近1400字。

不过，如果你仔细观察，你会发现QwQ在中间过程中失败了，然后切换到了其他方法。

_开源cicd发布系统_即将要发布的诺基亚9

经过一番折腾，结果并没有错。

开源cicd发布系统_即将要发布的诺基亚9_

即将要发布的诺基亚9__开源cicd发布系统

o1-mini 的回答仍然简洁。

即使显示了o1-mini默认不显示的“思考过程”，但仍然没有QwQ的回答那么长。

即将要发布的诺基亚9_开源cicd发布系统_

第二题是一道线性代数题。我们也把这道题从选择题修改为直接求A³的踪迹：

即将要发布的诺基亚9__开源cicd发布系统

这次QwQ的回答比之前简洁了一些，但依然有几千字。当然，结果仍然是正确的，o1-mini也保持简洁。

即将要发布的诺基亚9__开源cicd发布系统

第三个问题是关于概率论的。情况与前两个问题大致类似。下面直接上图：

（QwQ框中的答案省略了词根符号，但这是一道显示题，从文字上看答案是正确的）

开源cicd发布系统__即将要发布的诺基亚9

除了此类纯数学题外，情景数学题也是检验模型能力的重要标准。

所以这里我们选择了AIME数学竞赛中的一道题：

翻译是这样的。我们在测试中也使用了这一段的中文翻译版本：

开源cicd发布系统__即将要发布的诺基亚9

o1-mini的解法是正常思路，最终结果是正确的。另一方面，QwQ首先枚举很多，然后尝试从中找到规则。

当发现没有找到模式时，就会进行更多的枚举，但最终找到的模式并不正确，结果自然也是错误的（但方向确实与5的模有关）。

即将要发布的诺基亚9__开源cicd发布系统

从以上案例我们可以看出，如果单看准确率的话，QwQ的表现确实可以与o1-mini同台竞技。

但从流程来看，QwQ想要一步到位还是有一定难度的。还要经过枚举、试错等步骤，有时甚至会陷入死循环。

这就导致结果的人类可读性与o1-mini之间存在差距，QwQ需要在这一点上做出更多的改进。

幸运的是，QwQ 是一个开源模型。如果是按代币计费的商业模式，这样的输出长度可能会让人望而却步。

当然，钱文团队本身对于此类问题也很冷静，表示正处于测试阶段的QwQ确实篇幅较长、不够专注，未来会做出改进。

即将要发布的诺基亚9__开源cicd发布系统

还有一件事

除了这些严肃的问题之外，我们还尝试了陷阱问题，看看QwQ是否能发现任何缺陷。

问题是这样的，请注意，没有必要：

_即将要发布的诺基亚9_开源cicd发布系统

遗憾的是，QwQ并没有发现这个关键点，而是像一个普通农民过河问题一样回答了。

即将要发布的诺基亚9__开源cicd发布系统

不过这也是大机型的通病，O1还是无法抗拒这样的文字游戏。

_即将要发布的诺基亚9_开源cicd发布系统

事实上，这个问题早在几个月前就首次引起人们的关注。当时还没有o1这样的推理模型，大型模型在这个问题上几乎全军覆没。

现在看来，即使推理能力增强了，看题不仔细的问题依然没有消除（手动狗头）。

参考链接：

体验地址（面）：

体验地址（Moda社区）：

标签： card_analysis QwQ enumeration correct_result playing_cards

打赏

更多>同类资讯

0 条相关评论

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

通义千问版o1开源上线，32B参数量在GPQA上击败o1-mini，模型权重已发布

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司