其他资讯
OpenAI o1和o3模型发布:强化学习推动大模型快速迭代与深度思考能力
2025-01-07 08:02  浏览:230

近日,清华大学NLP实验室、上海AI实验室、清华大学电子系、社区等团队提出了一种新的结合过程奖励的强化学习方法——PRIME( )。

清华大学数学建模竞赛_清华大学数学怪才_

使用 PRIME 方法,研究人员不依赖任何蒸馏数据或模仿学习。他们只用了8台A100,花费在1万元左右。在不到10天的时间里,他们可以高效地培养出一名数学能力超过GPT-4o和Llama-3.1的数学家。 -70B 型号为Eurus-2-7B-PRIME 7B。

具体来说,研究人员使用 Qwen2.5-Math-7B-base 作为基础模型,训练了新模型 Eurus-2-7B-PRIME,在美国 IMO 选拔考试 AIME 2024 上取得了 26.7% 的准确率,大幅超越 GPT -4o、.1-70B 和 Qwen2.5-Math-7B-,并且仅使用 Qwen Math 数据的 1/10。其中,强化学习方法PRIME给模型带来了16.7%的绝对提升,远远超过任何已知的开源解决方案。

_清华大学数学怪才_清华大学数学建模竞赛

_清华大学数学建模竞赛_清华大学数学怪才

清华大学数学怪才_清华大学数学建模竞赛_

该项目一开源就在海外AI社区引爆,并在短短几天内取得了近100%的成功。

未来基于PRIME方法和更强的基础模型,有可能训练出接近o1的模型。

PRIME方法简介

长期以来,开源社区严重依赖数据驱动的模仿学习来增强模型推理能力,但这种方法的局限性也很明显——更强的推理能力需要更高质量的数据,但高质量的数据总是稀缺的,制造模仿和蒸馏是不可持续的。

尽管o1和o3的成功证明强化学习有更高的上限,但强化学习有两个关键挑战:(1)如何获得精确且可扩展的密集奖励; (2)如何设计能够充分利用这些奖励的强化学习算法。

PRIME算法基于隐式过程奖励( )的思想解决了这两个问题。隐式过程奖励模型只能在输出奖励模型(model,ORM)的数据上进行训练,即最终正确或错误的答案,并对过程奖励进行隐式建模,最终自动训练出一个过程奖励模型。这整个过程都有严格的理论保证。

详细推导参见:

清华大学数学怪才_清华大学数学建模竞赛_

清华大学数学建模竞赛_清华大学数学怪才_

基于隐式过程奖励模型的这一性质,研究人员指出,将其应用于强化学习有三大优势:

过程奖励:隐式过程奖励模型可以为每个代币提供价值估计,无需训练额外的价值模型(价值模型)即可提供过程奖励。

可扩展性:隐式过程奖励模型只需要在线更新结果标签。因此,我们可以结合策略模型采样和结果验证器来直接更新PRM,有效缓解分布偏移和可扩展性问题。

简单性:隐式过程奖励模型本质上是一个语言模型。在实践中,研究人员发现PRM可以直接用初始策略模型进行初始化。

隐式过程奖励解决了大模型强化学习中如何使用PRM、如何训练、如何扩展三大问题。您甚至无需训练额外的奖励模型即可开始强化学习,并且它非常易于使用且可扩展。

具体的PRIME算法流程如下图所示。它是一种在线强化学习算法,可以将每个代币的过程奖励无缝地应用到强化学习过程中。

清华大学数学建模竞赛__清华大学数学怪才

实验结果

清华大学数学怪才_清华大学数学建模竞赛_

研究人员详细比较了 PRIME 算法和基线方法。

与仅使用结果监督相比,PRIME 在采样效率上有 2.5 倍的提升,在下游任务上也有显着的提升。

清华大学数学怪才__清华大学数学建模竞赛

清华大学数学建模竞赛__清华大学数学怪才

研究人员还验证了PRM在线更新的重要性。可以看到,在线PRM更新明显优于不更新的固定PRM,这也证明了PRIME算法的设计和合理性。

_清华大学数学建模竞赛_清华大学数学怪才

清华大学数学怪才__清华大学数学建模竞赛

此外,研究人员还收集了额外的数据,基于Qwen2.5-Math训练了SOTA级别,在Best-of-N采样方面能够达到开源领先水平。

_清华大学数学建模竞赛_清华大学数学怪才

演示

(AIME 2024 测试题,-3.5-错误)

清华大学数学怪才__清华大学数学建模竞赛

清华大学数学建模竞赛_清华大学数学怪才_

哪个是? 9.11还是9.9?

_清华大学数学怪才_清华大学数学建模竞赛

清华大学数学怪才_清华大学数学建模竞赛_

强化学习是连接现有智能体(大型模型)和现实世界(世界模型、具身智能)的桥梁,也是将世界反馈内化为模型智能的路径。它将在下一代人工智能的发展中发挥重要作用。影响。 PRIME算法创新地将隐式过程奖励与强化学习相结合,解决了大模型强化学习的奖励稀疏问题,有望进一步提升大模型的复杂推理能力。

博客链接:

本文来自微信公众号“量子比特”,作者:PRIME团队,36氪授权发布。

发表评论
0评