量子比特 | 官方账号
自从Ilya的名字出现在o1背后团队的名单上之后,他在o1扮演什么角色就成为了很多网友关注的焦点。

刚刚,机器学习工程师 Rohan Paul 发文称,不容错过 Ilya 去年 5 月合作撰写的一篇论文。
论文的标题是“让我们一步一步来”。
不仅 Ilya,许多其他作者也是 o1 背后的贡献者。

有网友甚至称这篇论文是继《is all you need》之后AI领域第二著名的论文。

此外,在有关o1背后团队的激烈讨论中,科学家诺姆·布朗(Noam Brown)最近发文澄清,称不存在显性草莓/o1。
但同时透露,O1项目是多年研究的成果,真正开始加速发展是在去年10月。

从这个角度来看,Ilya 是 O1 的“基础贡献者”也就不足为奇了。
接下来,我们来仔细看看“Let's Step by Step”的论文和o1背后的贡献者。
Ilya 在 o1 的角色
o1 侧重于一般的复杂推理,在输出答案之前会生成一长串的思路,以增强模型的能力。
Ilya 合作的论文主要讨论了提高大型语言模型多步推理能力的方法。
他们主要比较了结果监督()和过程监督()对训练奖励模型的影响。
结果监督关注模型最终输出的正确性。
过程监督关注模型推理过程中每一步的正确性,可以指出答案中具体哪个步骤是错误的:

该团队使用 GPT-4 基础模型在 MATH 数据集上进行了实验。
由于没有简单的方法来实现这一过程监督的自动化,我们依靠人工数据注释者来标记模型生成解决方案中每个步骤的正确性。
他们收集了大量人类反馈数据,创建了一个包含 800,000 个步骤级标签的数据集。
实验分为大规模和小规模两个体系,各有优势,提供不同的视角。
研究结果表明,过程监督明显优于结果监督,能够训练出更加可靠的奖励模型。
通过过程监督训练的最佳模型解决了 MATH 测试集代表性子集上 78.2% 的问题,明显优于结果监督模型(72.4%)和多数投票基线(69.6%)。

我们还证明,大型奖励模型可以可靠地近似人类监督对小型奖励模型的影响,并且可以有效地对大规模数据集合进行消融分析。
主动学习()也能显著提高过程监督的数据效率,提高约2.6倍。

该团队还讨论了过程监控的几个主要优势。
一是反馈更加精准,让信用归因更加容易;二是AI对接上,过程监管更容易产生可解释的推理。
为了评估模型的泛化能力,研究团队还在 AP 物理、AP 微积分、AP 化学和 AMC 考试题上对其进行了测试。
结果表明,经过过程监督训练的模型在这些新问题上继续表现出色,证明了其对缓和分布变化的稳健性。
在大模型飞速发展的一年后,回头看这篇论文,有学者指出,现在看来,并没有太多的新意:
关键思想是过程奖励模型,它可以单独评估每个步骤或标记,而不仅仅是最终结果。

但正如网友所说,这篇论文最终还是迈向o1的一步。

o1代表“从记忆答案到记忆推理的范式转变”。

清华北大校友会o1-mini主要负责人
除了Ilya之外,o1背后的团队也备受关注。
官网给出的完整名单分为推理研究和推理技术安全两个部分,粗略一看,远不止100人。(好多人啊,GIF)

我们主要来看一下这个领域的研究。
在基层贡献者中我们也看到了很多熟悉的身影和中国面孔。

研究员 Jason Wei 此前就职于 Brain,是思维链的创始人,也参与过大模型涌现能力和 GPT-4 的研究。

赵立坚本科毕业于清华大学,后赴斯坦福攻读博士学位,2012年毕业后加入谷歌,据其个人介绍,他热衷于训练大型模型,是GPT-4和GPT-4o mini的核心作者之一。

任宏宇 2018 年毕业于北京大学,随后来到斯坦福攻读计算机科学博士学位,研究方向为大型语言模型。加入斯坦福之前,他曾就职于微软、英伟达、谷歌、苹果等科技巨头。他是 GPT-4o 的核心贡献者,也是 GPT-4o mini 的领导者,主要教模型如何思考得更快、更用力、更敏锐。

当该款车型刚上市的时候,他就说o1-mini是他最喜欢的一款车型。

上述两位清华大学和北京大学的校友应为o1-mini的主要负责人。



宋志强毕业于耶鲁大学和哈佛大学,本科毕业后,在纽约大学担任助理研究员,研究计算神经科学。四年过去,22年过去了。
周文达本科毕业于剑桥大学,博士毕业于哥伦比亚大学。来华前,她曾在纽约大学担任研究员,并于去年加入华大。
Kevin Yu,毕业于加州大学伯克利分校,曾在美国宇航局工作。
这里还有一张中国人的面孔。
Mark Chen 现为 研究副总裁,曾在麻省理工学院学习数学和计算机科学,并担任量化研究合伙人。

最后,还附上了完整名单。
奥特曼:未来几年我们已掌握主动权
对了,前几天奥特曼又进行了一次公开采访,谈到了最新的造型。
他表示,虽然o1模型能在IOI、IMO等竞赛中取得优异成绩,但重点不应该放在AI擅长考试,而是在于它能否帮助研究人员,比如更快地发现新材料、找到治疗疾病的方法等等。
这是一个新范式的开始,虽然很早,但非常重要。
谈到对未来的展望,他提到,未来有两种基本商品,即智力和能量——创造的能力,从事智力工作的能力,以及能量,即在世界上实现这些目标的能力。
至于大模型的进展,他表示,不仅没有放慢速度,而且已经在未来几年占据主动。

参考链接:
[1][2]
[3]
[3]


