推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

Ilya Sutskever 在 OpenAI o1 中发挥了哪些作用？机器学习工程师推荐这篇论文

日期：2024-09-18 来源：网络整理作者：二手钢材网浏览：234 评论：0

核心提示：实验分为大规模和小规模两种体制，各有优势并提供不同视角。大模型飞速发展一年后的今天，再来看这篇论文，有学者指出现在来看没有太多新的想法：清北校友o1-mini主要负责人的领导者，主要教模型如何更快、更努力、更敏锐的思考。以上这两位清华北大校友，应该是o1-mini的主要负责人没跑了。

量子比特 | 官方账号

自从Ilya的名字出现在o1背后团队的名单上之后，他在o1扮演什么角色就成为了很多网友关注的焦点。

核心关键技术管理_闪光学院_

刚刚，机器学习工程师 Rohan Paul 发文称，不容错过 Ilya 去年 5 月合作撰写的一篇论文。

论文的标题是“让我们一步一步来”。

不仅 Ilya，许多其他作者也是 o1 背后的贡献者。

_闪光学院_核心关键技术管理

有网友甚至称这篇论文是继《is all you need》之后AI领域第二著名的论文。

核心关键技术管理_闪光学院_

此外，在有关o1背后团队的激烈讨论中，科学家诺姆·布朗（Noam Brown）最近发文澄清，称不存在显性草莓/o1。

但同时透露，O1项目是多年研究的成果，真正开始加速发展是在去年10月。

核心关键技术管理_闪光学院_

从这个角度来看，Ilya 是 O1 的“基础贡献者”也就不足为奇了。

接下来，我们来仔细看看“Let's Step by Step”的论文和o1背后的贡献者。

Ilya 在 o1 的角色

o1 侧重于一般的复杂推理，在输出答案之前会生成一长串的思路，以增强模型的能力。

Ilya 合作的论文主要讨论了提高大型语言模型多步推理能力的方法。

他们主要比较了结果监督（）和过程监督（）对训练奖励模型的影响。

结果监督关注模型最终输出的正确性。

过程监督关注模型推理过程中每一步的正确性，可以指出答案中具体哪个步骤是错误的：

核心关键技术管理__闪光学院

该团队使用 GPT-4 基础模型在 MATH 数据集上进行了实验。

由于没有简单的方法来实现这一过程监督的自动化，我们依靠人工数据注释者来标记模型生成解决方案中每个步骤的正确性。

他们收集了大量人类反馈数据，创建了一个包含 800,000 个步骤级标签的数据集。

实验分为大规模和小规模两个体系，各有优势，提供不同的视角。

研究结果表明，过程监督明显优于结果监督，能够训练出更加可靠的奖励模型。

通过过程监督训练的最佳模型解决了 MATH 测试集代表性子集上 78.2% 的问题，明显优于结果监督模型（72.4%）和多数投票基线（69.6%）。

核心关键技术管理__闪光学院

我们还证明，大型奖励模型可以可靠地近似人类监督对小型奖励模型的影响，并且可以有效地对大规模数据集合进行消融分析。

主动学习（）也能显著提高过程监督的数据效率，提高约2.6倍。

核心关键技术管理_闪光学院_

该团队还讨论了过程监控的几个主要优势。

一是反馈更加精准，让信用归因更加容易；二是AI对接上，过程监管更容易产生可解释的推理。

为了评估模型的泛化能力，研究团队还在 AP 物理、AP 微积分、AP 化学和 AMC 考试题上对其进行了测试。

结果表明，经过过程监督训练的模型在这些新问题上继续表现出色，证明了其对缓和分布变化的稳健性。

在大模型飞速发展的一年后，回头看这篇论文，有学者指出，现在看来，并没有太多的新意：

关键思想是过程奖励模型，它可以单独评估每个步骤或标记，而不仅仅是最终结果。

核心关键技术管理_闪光学院_

但正如网友所说，这篇论文最终还是迈向o1的一步。

核心关键技术管理__闪光学院

o1代表“从记忆答案到记忆推理的范式转变”。

核心关键技术管理__闪光学院

清华北大校友会o1-mini主要负责人

除了Ilya之外，o1背后的团队也备受关注。

官网给出的完整名单分为推理研究和推理技术安全两个部分，粗略一看，远不止100人。（好多人啊，GIF）

_闪光学院_核心关键技术管理

我们主要来看一下这个领域的研究。

在基层贡献者中我们也看到了很多熟悉的身影和中国面孔。

_核心关键技术管理_闪光学院

研究员 Jason Wei 此前就职于 Brain，是思维链的创始人，也参与过大模型涌现能力和 GPT-4 的研究。

闪光学院__核心关键技术管理

赵立坚本科毕业于清华大学，后赴斯坦福攻读博士学位，2012年毕业后加入谷歌，据其个人介绍，他热衷于训练大型模型，是GPT-4和GPT-4o mini的核心作者之一。

_核心关键技术管理_闪光学院

任宏宇 2018 年毕业于北京大学，随后来到斯坦福攻读计算机科学博士学位，研究方向为大型语言模型。加入斯坦福之前，他曾就职于微软、英伟达、谷歌、苹果等科技巨头。他是 GPT-4o 的核心贡献者，也是 GPT-4o mini 的领导者，主要教模型如何思考得更快、更用力、更敏锐。

核心关键技术管理_闪光学院_

当该款车型刚上市的时候，他就说o1-mini是他最喜欢的一款车型。

闪光学院_核心关键技术管理_

上述两位清华大学和北京大学的校友应为o1-mini的主要负责人。

核心关键技术管理_闪光学院_

闪光学院_核心关键技术管理_

_闪光学院_核心关键技术管理

宋志强毕业于耶鲁大学和哈佛大学，本科毕业后，在纽约大学担任助理研究员，研究计算神经科学。四年过去，22年过去了。

周文达本科毕业于剑桥大学，博士毕业于哥伦比亚大学。来华前，她曾在纽约大学担任研究员，并于去年加入华大。

Kevin Yu，毕业于加州大学伯克利分校，曾在美国宇航局工作。

这里还有一张中国人的面孔。

Mark Chen 现为研究副总裁，曾在麻省理工学院学习数学和计算机科学，并担任量化研究合伙人。

核心关键技术管理__闪光学院

最后，还附上了完整名单。

奥特曼：未来几年我们已掌握主动权

对了，前几天奥特曼又进行了一次公开采访，谈到了最新的造型。

他表示，虽然o1模型能在IOI、IMO等竞赛中取得优异成绩，但重点不应该放在AI擅长考试，而是在于它能否帮助研究人员，比如更快地发现新材料、找到治疗疾病的方法等等。

这是一个新范式的开始，虽然很早，但非常重要。

谈到对未来的展望，他提到，未来有两种基本商品，即智力和能量——创造的能力，从事智力工作的能力，以及能量，即在世界上实现这些目标的能力。

至于大模型的进展，他表示，不仅没有放慢速度，而且已经在未来几年占据主动。

_闪光学院_核心关键技术管理

参考链接：

[1][2]

[3]

标签： 多步推理结果监督 GPT-4 MATH 数据集

打赏

更多>同类资讯

0 条相关评论

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

Ilya Sutskever 在 OpenAI o1 中发挥了哪些作用？机器学习工程师推荐这篇论文

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司