该杂志的一项研究曾证明,GPT-4可以独立设计和进行化学实验,还可以阅读文档来学习如何使用实验室设备。

还有作者之一开发的“世界第一位AI科学家”,完全不需要人工干预,一口气可以产出10篇论文。
如今,AI入侵研发领域的速度远远超出了人类的预期。

非营利组织 METR 的最新研究表明:
在 2 小时的时间内,3.5 和 o1 在 7 个具有挑战性的研究项目中击败了 50 多名人类专家。

论文地址:
令人印象深刻的是,AI 编程速度可以比人类快 10 倍地生成和测试各种解决方案。
在一项需要编写自定义内核来优化前缀和运算的任务中,o1-不仅完成了任务,而且还取得了惊人的结果:将运行时间压缩到0.64毫秒,甚至超越了最好的人类专家解决方案(0.67毫秒) 。
然而,当游戏时间延长到8小时时,人类就表现出了明显的优势。
从下面可以看出,随着时间逐渐拉长,3.5和o1-的性能提升逐渐趋于平稳。

有趣的是,为了获得更高的分数,AI智能体实际上会违反规则并“作弊”。
本来对于一个任务,agent应该减少训练脚本的运行时间,o1-直接复制输出代码。
顶级预测人士对这一结果感到惊讶,他们表示,根据这样的进展速度,人工智能达到人类高水平能力所需的时间可能比之前预期的要短。

RE-Bench设计架构,穿越七大任务
为了能够快速迭代并以合理的成本收集数据,研究人员设置了运行限制:人类专家评估时间不超过 8 小时,所有环境只能使用 8 个或更少的 H100 GPU 运行。
在设计环境时,主要考虑的是最大限度地覆盖前沿人工智能问题,同时确保人类专家和代理能够继续推进任务,而不会遇到研究瓶颈或分数上限。
RE-Bench 包含七个精心设计的评估环境,每个环境都会提出独特的机器学习优化问题。获得高分需要大量的实验、实施和计算资源的有效利用。

每个评估环境由三部分组成:
1. 评分函数( )定义了环境的目标,智能体可以随时运行该函数。每次运行评分功能时,都会将带时间戳的条目添加到评分日志中。代理可以查看评分日志并检查评分函数的详细信息,这有助于了解研究目标。
2. 向智能体提供一个简单但性能较差的初始解决方案( ),以展示有效的解决方案是什么样子,有助于说明环境设置,并允许智能体更快地开始研究更具挑战性的问题。例如,在“优化核函数”环境中,代理的输入是一个简单但缓慢的解决方案。
3. 任务作者创建的参考解( )得分较高。但该解决方案不会提供给代理,仅用于标准化分数作为良好解决方案的示例。式中,ys 为初始解得分,yr 为参考解得分,y 为模型得分,yn 为归一化得分。

除了“Law”使用最终分数进行评估外,其他实验均使用分数日志中的最高分数。
8小时限制,人类专家击败AI
研究人员使用开源平台设置安全虚拟机,配备 20-48 个虚拟 CPU、200-400 GB RAM 和 0 到 6 个 H100 GPU。对比模型选择-3-5--和o1-,框架选择是METR和AIDE
时间限制下的表现
同时可以看出,o1-和3.5在初始阶段进展很快,但几个小时后进展缓慢;而人类专家起步缓慢,但随后进步很快。

采样限制下的性能
除了长时间运行之外,研究人员还评估了模型是否在较短的时间限制下获得了更好的性能:对每个环境进行了 k 次采样,并选择了所有 k 次运行中取得的最高分数。

结果发现,模块化框架中的代理在 30 分钟的试用中表现更好,而 AIDE 框架中的代理在 2 小时的试用中表现最好。
还可以发现,AIDE框架中的o1-和模块化框架中的3.5获得了总体最高分,分别达到了人类专家的第36和37个百分点。
随着样本数量的增加,best-k 分数(score@k)也发生变化: 3.5 在 30 分钟时,样本数量增加,性能稳步提升,但即使 k = 128 个样本,agent 性能也滞后远远落后于顶尖人类。


总体而言,人类起步较慢,但改进轨迹更陡峭,即进步更快,并且在 32 小时的时间预算内比任何智能体获得更高的分数。
通过环境评估
研究人员将两个智能体(模块化框架中的 3.5 和 AIDE 框架中的 o1-)在 32 小时内的最高性能分布与人类结果(四次 8 小时运行的最佳性能)进行了比较,以匹配智能体的时间预算。

结果表明,不同环境下不同智能体的表现存在显着差异: 3.5 智能体在“问答微调 GPT-2”和“扩展规则实验”环境中接近人类表现,而 o1 - 在这些环境中表现不佳;o1-在“优化内核函数”环境中比人类表现更好。
人类与人工智能差距的定性分析
为了更好地了解人类专家在哪些条件下比人工智能代理表现更好或更差,研究人员对代理的表现和解决方案进行了定性分析。
AI智能体:知识储备大,尝试频率37次/h
虽然人工智能代理通常无法找到与顶级人类专家相匹配的解决方案,但他们已经取得了一些显着的成功。
例如,在AIDE的支持下,3.5(新版本)和o1-都可以找到“优化内核”的解决方案,运行速度约为参考解决方案的2倍。
如下图所示,o1-的解决方案甚至超过了9位人类专家的解决方案。
这些是复杂而新颖的算法,可以有效地绕过 GPU 通信限制,并使用缺乏良好公共文档的低资源编程语言 ()。

这一令人惊讶的结果可能部分归因于人工智能代理和许多人类专家之间的专业知识差距,因为大多数人类专家不具备对 GPU 核心进行编程的专业知识。
这种情况在多种情况下都有体现:一些对该领域不太熟悉的人类专家需要花费大量时间学习或复制标准方法(有时甚至完全失败),而人工智能代理凭借其广泛的知识库,往往可以轻松完成。
人工智能代理成功的另一个关键因素可能是他们可以比人类专家尝试更多的解决方案。
平均而言,AIDE 和模块化代理每小时分别运行 36.8 次和 25.3 次,而人类专家仅运行 3.4 次。
这通常会导致代理找到高度优化的“局部最优”解决方案,只需调整初始解决方案的参数和代码即可实现显着改进。
例如,许多代理不是通过编写成功的解决方案(这很困难)来解决“优化的内核”环境,而是通过仔细调整初始解决方案以使其运行速度显着加快。
也就是说,他们有效地优化了现有的解决方案。
如下图,“Fine- GPT-2 for and ”的最佳代理解决方案中,3.5调整了初始解决方案的参数,并在训练轨迹和评估方面获得了准确的结果。
然而,这个高分可能是过度拟合噪声的结果。

总而言之,人工智能代理的成功在于它们能够进行广泛的参数微调和代码优化,并偶尔提出创造性且有效的解决方案,尤其是在评估成本较低的环境中。
失败因素
但在大多数环境中,智能体仍然达不到强大的人类专家的水平。
造成这种情况的原因之一是人工智能代理提出的解决方案缺乏多样性。
例如,在“受限架构 MLM”任务中,代理在 84% 的时间内尝试使用稍作修改的架构。即使不能使用除法和求幂运算,也遵循此方案。
另一个限制是持续的指令理解错误,特别是在“受限架构 MLM”和“优化 LLM”任务中。
在某些情况下,这些对环境的误读可能会导致代理发现令人印象深刻且意想不到的漏洞,这些漏洞在自动评估中得分很高,但在手动检查时明显违反了环境规则。

缩小差距
基于上述观察,研究人员认为,在具有以下特征的环境中,人工智能体将表现得比人类更好:
- 短期和高保真循环反馈使人工智能代理能够充分利用尝试多种解决方案
- 工程复杂度低,人工智能代理只需几步即可解决问题
- 对于需要专业知识的任务,人工智能代理比人类专家拥有更全面的知识
- 环境中有明显的噪音,在这种情况下,人工智能代理大量尝试的优势超过了人类专家较少次数的尝试。
- 不太容易出现意外情况,不需要太多的探索和发现
重新基准限制
评估环境代表性不足
为了创建符合设计标准的高可靠性评估,研究人员需要努力确保说明和评分易于理解,能够在 8 小时内取得重大进展,并提供所有必要的资源。他们还必须选择一个易于构建和评估的环境。
这些限制使得评估环境不太能代表真实的研究,普遍存在目标不明确、指导不力、反馈缓慢、问题无法解决等问题。
由此产生的噪音
由于环境数量较少,并且代理得分严重向右倾斜,大多数运行得分为 0,只有少数得分非常高,因此最终的评估对采样噪声很敏感。
评估的成本和复杂性
使用H100 GPU运行一个代理几个小时需要相应的基础设施和大量的预算,这对于普通研究人员来说压力很大。进行大规模实验来比较多个模型、框架和参数也更具挑战性。
缺乏框架迭代
选择不同的代理框架或提示可能会导致模型在相似的时间内在基准测试中取得更好的结果。
研究人员的期望是通过为代理提供管理 GPU 资源的工具,或通过并行探索解决方案利用更多代币来实现更好的性能。
涵盖前沿研究的局限性
由于硬件访问受到限制,并且尖端人工智能研究大多是闭源的,因此评估涵盖的研究类型与推动尖端人工智能进步的研究类型之间可能存在差异。
解决方案可能过度拟合
除扩展法则实验外,所有环境都向代理提供测试分数输出,以最大程度地减少误解或混淆的风险;在未来的迭代中,研究人员考虑在大多数环境中仅向代理提供验证分数,隐藏测试分数。
《扩展定律实验》的评分有运气的成分
虽然良好的实验可以帮助人类专家对环境做出明智的预测,但智能体在很大程度上依赖于猜测,并且更多地取决于运气而不是技能。


