就在今天,昆仑万维的o1上线了中文逻辑推理能力,并开启邀请测试。
那一波实测,不是要安排的吗?
o1这样的模型最大的特点就是强大的推理能力。因此,我们直接拿一道AIME数学竞赛题,看看是否足以“开门见山”。
(AIME:美国数学邀请赛,AMC10、AMC12 和美国数学奥林匹克之间的数学竞赛。)

标题翻译如下:
每天早上,阿雅都会散步 9 公里,并在一家咖啡店停下来。当她以每小时 s 公里的匀速行走时,整个步行加上在咖啡店度过的时间总共需要 4 小时,其中包括在咖啡店度过的 t 分钟。当她以每小时s+2公里的速度行走时,整个过程(包括在咖啡店的时间)需要2小时24分钟。
假设阿雅以每小时 s+1/2 公里的速度行走。找出她在这种情况下花费的总时间(以分钟为单位)(包括在咖啡店花费的时间)。
上下滑动即可查看全部内容:

从o1的整体答案来看,它首先将问题分解为不同的场景,通过建立方程组来描述步行速度、时间和距离之间的关系。
然后采用代数方法求解,保证了表达式简化和单位转换的正确性。
更重要的一点是,可以将o1代入结果中,验证计算过程的自洽性,可以清楚地得到总时间。
最终它给出的答案是“204”,与今年AIME题的标准答案一致。
接下来,我们将用今年的高考数学题再进行一次测试。
请AI听一下问题:
已知函数 $f(x) = a(x - 1) - \ln x + 1$。
(1)求f(x)的单调区间;
(2) 当α小于等于2时,证明:当x大于1时,$f(x) < e^{x-1}$始终为真。

对于这个问题,o1的思考和解答如下(上下滑动查看全部内容):

AI的整体思路和之前一样,是循序渐进的方式,主要着眼点是一步步来。
即使这段时间遇到“陷阱”,o1也会及时发现并提醒自己。整个过程就像是复制和呈现人类思维的过程。
最终的答案也与标准答案一致。

需要说明的是,o1其实是一个系列,更具体地说,包括三个细分型号:
不仅如此,o1 Open还参与了类o1机型的对比,可以说能力上有了很大的提升。
将 Llama-3.1-8B 的性能提升到与 SOTA 相同的水平(超越 Qwen-2.5-7B-)。
同时,8B的o1 Open还解锁了许多更大规模模型(例如GPT 4o)无法完成的数学推理任务(例如24点计算)。
这也为推理模型部署在轻量级设备上提供了可能性。

在MATH数据集上,Q*(论文地址:)帮助Llama-3.1-7B改进并超越了同一利基市场中的SOTA Qwen2.5-7B-。
同时,昆仑万维还将开源两个用于推理任务的模型(PRM):o1 Open-PRM-1.5B和o1 Open-PRM-7B。与之前开源的相比——Model只对整个模型答案进行评分。 o1 Open-PRM 可以对模型答案中的每个步骤进行评分。
与开源社区现有的PRM相比,o1 Open-PRM-1.5B可以达到开源社区8B的模型效果,例如.1-8B-PRM--Data、OpenR的Math-psa-7B、 o1 Open-PRM-7B 在大部分区域可同时接近/超过 Qwen2.5-Math-RM-72B 10 倍。
o1 Open-PRM也是第一个适应编码任务的开源PRM。下表显示了以-o1-Open-8B为基本模型,在数学和代码评估集上使用不同PRM的评估结果。
详细的技术报告也将很快发布。目前模型及相关介绍均已开源()。
那么除了纯数学题之外,o1在其他推理任务上会表现如何呢?
接下来我们将继续进行更多维度的测试。
AI自己思考、计划、反思
9.9 和 9.11 哪个更大?
首先我们用曾经难倒很多大型AI模型的经典问题“9.9和9.11哪个更大”来做测试。
虽然现在几乎所有大型模型都能给出正确答案,但在这次测试中,我们将更加关注AI的思维过程。

从流程上看,o1仍然采用分而治之的策略。
首先比较整数位,确定两个整数位相同;然后确定小数位,并将其转换为相同的格式,即比较0.90和0.11,确定9.9大于9.11。
最终,o1再次验证了过程,确定结果正确。
从它的思维来看,比较这两个数字的逻辑与人类是一致的。
脑筋急转弯
接下来,我们再做一个脑筋急转弯:
一个盒子里有2个苹果,两个被拿走了,但盒子里还有2个苹果。这可能吗?

对于这样的脑筋急转弯,很多人在思考过程中都会首先检查它是否符合常识;如果是“不按套路打牌”的类型,就会在题目中寻找猫腻。
那么当谈到AI时,它会如何思考呢?

o1首先审阅了这个问题,初步判断不符合常理。他应该开始注意细节,思考几种可能。
例如,有人放了2个苹果进去,画了苹果,视错觉,盒子里放了镜子等等……
但以上所有的想法都被我自己否定了,因为它们太牵强了。
最后,o1认定这道题的窍门在于“带走”二字,给出的解释也是正确答案:
把苹果从盒子里拿出来,但不是从盒子里拿出来,仍然在盒子的范围内。
加密问题
要测试大型模型的逻辑推理,加密问题可以说是非常适合的类型。
由于加密问题往往需要从有限的已知条件中推导出未知信息,这就要求模型具有较强的逻辑推理能力,能够发现多个条件之间的关联性并得出结论。
那么,闲话少说,请AI听听问题:
已知->使得请根据本例找出密文对应的原文。

o1从已知的加密规则和密文-明文对中总结出字符映射关系,并根据映射规则解码出新的密文。
在这个过程中,模型逻辑清晰,问题一步步拆解,假设逐步得到验证。在映射不完全的情况下,通过推测加密模式进一步改进解码方案。
特别是它的加密规则总结能力,不仅识别出了每个字母映射为两个字符的规则,还通过字母表的字符位置和偏移量(奇偶位置的偏移逻辑)发现了加密过程的具体算法。 )。
但它并不完美
虽然o1在当前的各种推理任务中表现都还不错,但是当我们将任务难度降低到极低的水平时,我们也发现了一个问题——有点冗长。
例如,询问“1+1 等于多少”:

emmmm……麻烦,确实有点麻烦。
但同时,模型考虑到问题是否在不同的十六进制系统中寻求答案,这也体现了模型的多样化思维能力。
不过,在与昆仑万维团队的沟通中,我们了解到,对于这样一个简单的问题,团队未来会进一步优化o1的回答。
看到效果后,接下来的问题是:
如何?
总体而言,o1的思考能力、计划能力和反思能力主要得益于三阶段的自研技术解决方案。
首先,第一阶段是训练推理和反思能力的过程。
o1通过自主研发的多智能体系统构建高质量的逐步思考、反思和验证数据。
这些多样化的长思维数据用于对基础模型进行进一步的预训练和监督微调,从而提高模型在复杂任务中的推理能力。
接下来,第二阶段是推理能力的强化学习。
o1团队开发了o1模型(PRM),适合分步推理的强化学习过程。
该模型可以有效捕捉复杂推理任务中每一步对最终答案的影响;通过结合自主研发的分步推理增强算法,模型的推理思维能力得到显着增强。
PRM的核心在于其精细化的推理过程奖励机制。
传统的强化学习模型往往只关注最终结果的正确性,而PRM在每个推理步骤中引入奖励评估,以确保模型在每一步都能不断优化其推理路径。
PRM可以对模型的每个思维过程进行评分,从而帮助模型纠正错误的思维链,提高整体推理质量。
o1团队还在PRM中加入了多任务训练数据,使其不仅能够在单一领域表现出色,而且具备灵活应用于多种任务场景的能力。

这样,o1就可以有效应对各种复杂的推理挑战。
最后是推理规划()。
这也是昆仑万维首次应用并公开Q*算法进行在线推理。
Q*算法结合模型的在线思维能力,可以找到最佳推理路径,从而显着提高模型的在线推理能力。
值得一提的是,这也是全球首次实现Q*算法,使得o1的推理能力进一步领先于其他同类模型。
为什么类 o1 模型很重要?
早在 Sam 发布 o1 模型的时候,他就对这个问题发表了一些评论:
o1 标志着新范式的开始:能够进行通用复杂推理的人工智能。

这一趋势也与行业发展的大背景密不可分,即市场对具有强大推理能力的模型的需求不断增加。
类o1模型模型的推出正是满足了这一需求,尤其是在需要复杂逻辑推理的应用场景,比如科学研究、编程、数据分析等领域。
由于它们的性能提升方法与传统的大规模预训练方法(通过增加参数和数据量)不同,它们通过增加推理时的计算能力和时间投入来实现显着的性能提升,这给开发带来了巨大的好处模型的。新法来了。
而通过内置的思维链(CoT)逐步解决问题的方式在一定程度上模拟了人类缓慢的思维过程;该方法使模型能够在推理过程中进行自我纠正。当模型检测到偏离正确推理路径时,它可以回溯并尝试其他选项。
总之,符合市场和行业的硬性需求。
纵观昆仑万维这两年在大模型时代的表现,毫不夸张地说,每次新的技术趋势到来,国内玩家中一定有它的身影,而且属于早期一批。 。
例如,其大基天宫大型模型系列包括天宫1.0、天宫2.0、天宫3.0,以及今天正式邀请测试的“天宫大型模型4.0”o1版本(o1)。
其次,其他模式包括AI搜索(天宫AI搜索)、AI音乐(天宫)、AI社交(linky)、AI视频(AI短剧平台)、实时语音对话助手(Skyo)等。
而开源也是昆仑万维从开始到现在的特点之一;就像o1 Open这个开源模式一样,也将加速国内开源社区再现o1的进程。
最后,o1测试邀请地址如下。有兴趣的话就申请吧~



