OpenAI o1和o3模型发布：强化学习推动大模型快速迭代与深度思考能力_其他资讯_资讯_二手钢材网

其他资讯

OpenAI o1和o3模型发布：强化学习推动大模型快速迭代与深度思考能力

2025-01-07 08:02 浏览:230

近日，清华大学NLP实验室、上海AI实验室、清华大学电子系、社区等团队提出了一种新的结合过程奖励的强化学习方法——PRIME（）。

清华大学数学建模竞赛_清华大学数学怪才_

使用 PRIME 方法，研究人员不依赖任何蒸馏数据或模仿学习。他们只用了8台A100，花费在1万元左右。在不到10天的时间里，他们可以高效地培养出一名数学能力超过GPT-4o和Llama-3.1的数学家。 -70B 型号为Eurus-2-7B-PRIME 7B。

具体来说，研究人员使用 Qwen2.5-Math-7B-base 作为基础模型，训练了新模型 Eurus-2-7B-PRIME，在美国 IMO 选拔考试 AIME 2024 上取得了 26.7% 的准确率，大幅超越 GPT -4o、.1-70B 和 Qwen2.5-Math-7B-，并且仅使用 Qwen Math 数据的 1/10。其中，强化学习方法PRIME给模型带来了16.7%的绝对提升，远远超过任何已知的开源解决方案。

_清华大学数学怪才_清华大学数学建模竞赛

_清华大学数学建模竞赛_清华大学数学怪才

清华大学数学怪才_清华大学数学建模竞赛_

该项目一开源就在海外AI社区引爆，并在短短几天内取得了近100%的成功。

未来基于PRIME方法和更强的基础模型，有可能训练出接近o1的模型。

PRIME方法简介

长期以来，开源社区严重依赖数据驱动的模仿学习来增强模型推理能力，但这种方法的局限性也很明显——更强的推理能力需要更高质量的数据，但高质量的数据总是稀缺的，制造模仿和蒸馏是不可持续的。

尽管o1和o3的成功证明强化学习有更高的上限，但强化学习有两个关键挑战：（1）如何获得精确且可扩展的密集奖励；（2）如何设计能够充分利用这些奖励的强化学习算法。

PRIME算法基于隐式过程奖励（）的思想解决了这两个问题。隐式过程奖励模型只能在输出奖励模型（model，ORM）的数据上进行训练，即最终正确或错误的答案，并对过程奖励进行隐式建模，最终自动训练出一个过程奖励模型。这整个过程都有严格的理论保证。

详细推导参见：

清华大学数学怪才_清华大学数学建模竞赛_

清华大学数学建模竞赛_清华大学数学怪才_

基于隐式过程奖励模型的这一性质，研究人员指出，将其应用于强化学习有三大优势：

过程奖励：隐式过程奖励模型可以为每个代币提供价值估计，无需训练额外的价值模型（价值模型）即可提供过程奖励。

可扩展性：隐式过程奖励模型只需要在线更新结果标签。因此，我们可以结合策略模型采样和结果验证器来直接更新PRM，有效缓解分布偏移和可扩展性问题。

简单性：隐式过程奖励模型本质上是一个语言模型。在实践中，研究人员发现PRM可以直接用初始策略模型进行初始化。

隐式过程奖励解决了大模型强化学习中如何使用PRM、如何训练、如何扩展三大问题。您甚至无需训练额外的奖励模型即可开始强化学习，并且它非常易于使用且可扩展。

具体的PRIME算法流程如下图所示。它是一种在线强化学习算法，可以将每个代币的过程奖励无缝地应用到强化学习过程中。

清华大学数学建模竞赛__清华大学数学怪才

实验结果

清华大学数学怪才_清华大学数学建模竞赛_

研究人员详细比较了 PRIME 算法和基线方法。

与仅使用结果监督相比，PRIME 在采样效率上有 2.5 倍的提升，在下游任务上也有显着的提升。

清华大学数学怪才__清华大学数学建模竞赛

清华大学数学建模竞赛__清华大学数学怪才

研究人员还验证了PRM在线更新的重要性。可以看到，在线PRM更新明显优于不更新的固定PRM，这也证明了PRIME算法的设计和合理性。

_清华大学数学建模竞赛_清华大学数学怪才

清华大学数学怪才__清华大学数学建模竞赛

此外，研究人员还收集了额外的数据，基于Qwen2.5-Math训练了SOTA级别，在Best-of-N采样方面能够达到开源领先水平。

_清华大学数学建模竞赛_清华大学数学怪才

演示

（AIME 2024 测试题，-3.5-错误）

清华大学数学怪才__清华大学数学建模竞赛

清华大学数学建模竞赛_清华大学数学怪才_

哪个是？ 9.11还是9.9？

_清华大学数学怪才_清华大学数学建模竞赛

清华大学数学怪才_清华大学数学建模竞赛_

强化学习是连接现有智能体（大型模型）和现实世界（世界模型、具身智能）的桥梁，也是将世界反馈内化为模型智能的路径。它将在下一代人工智能的发展中发挥重要作用。影响。 PRIME算法创新地将隐式过程奖励与强化学习相结合，解决了大模型强化学习的奖励稀疏问题，有望进一步提升大模型的复杂推理能力。

博客链接：

本文来自微信公众号“量子比特”，作者：PRIME团队，36氪授权发布。

发表评论