甚至人工智能也可以秘密地“欺骗”(doge)。事情是这样的——
人类与人工智能的科研能力竞争也有了新的评价基准。
它的代号为“RE-Bench”,由非营利研究组织METR推出,目的是找出当前AI智能体在自动化科学研究方面与人类专家水平的接近程度。
注意,下达命令后,AI和50多位人类专家开始暗中较量:
在最初的2个小时里,基于3.5和o1-构建的Agent(智能)的表现远远好于人类。
但拐点之后,AI能力的增长速度(8小时内)却始终无法赶上人类。
将时间延长至更长(至32小时)后,研究得出的结论是,当前的AI智能体更适合并行处理大量独立的短实验。
知名预测家伊莱看完上述结果后认为,这“大幅缩短”了他的AGI时间表(连续两年以2027年为中位数),这也引发了热议。
网上也有人表示,AI的自动化科学研究对于推动经济爆发性增长可能至关重要。
有些人甚至想象力大开,开始想象躺着赚钱的生活(doge):
未来,AI代理会做科学研究,然后雇佣一群人写代码……
AI更适合大量并行的短期任务。长期的科学研究仍然依赖于人类。
在RE-Bench上,研究比较了基于大型语言模型(目前主要发布3.5、o1-)构建的与50+人类专家的科研能力。
值得注意的是,这些专家都拥有强大的机器学习背景,其中许多人在顶级行业实验室或机器学习博士项目中工作。
经过一番PK,研究得出以下主要结论:
总之,不仅人工智能和人类各有长处,而且不同的人工智能也有各自的最优科研节奏。
人类更适应更复杂、更长期的科学研究,而人工智能更适应大量并行的短期任务。
回到研究的起点,METR提出RE-Bench的主要原因是,虽然很多政府和企业都在强调AI智能体能否自动开发和发展是一个关键能力。但问题是:
现有的评估往往侧重于短期、狭隘的任务,缺乏与人类专家的直接比较。
因此,RE-Bench想做的就是全面评估AI科学研究所需的技能。本研究共提出7项建议:
这些任务被设计为需要≤8小时,以便人类专家可以使用合理的计算资源来完成它们,从而实现人类与人工智能之间的直接比较。
并且主办方特别提醒,要想获得高分,就必须最大限度地利用计算资源来完成这些复杂的任务。
总体来说,RE-Bench的运行机制如下:
首先,这七个任务是一个独立的评估环境,每个任务都有明确的目标,例如优化 GPU 内核或调整机器学习模型的超参数。
为了确保任务的可比性,每个环境都提供了一个有效但效率较低的参考解决方案,为代理和人类专家提供了基准点。
人工智能和人类专家都可以访问这些环境,并且都有权使用所需的计算资源,例如 GPU。
然后人工智能通过自然语言处理和编程能力来执行任务,而人类专家则通过编码和实验来完成任务。
执行后,每个环境都有一个评分功能,用于衡量代理或人类专家提交的解决方案的有效性。
当然,评分函数会根据解决方案的性能给出数值分数,然后将其标准化以方便环境之间的比较。
需要注意的是,该过程还涉及时间预算分配(时间)。现实情况是,人类专家通常被分配 8 小时来完成一项任务,而人工智能是根据实验设计在不同的时间限制下进行评估的。
例如,对于AI,8小时的预算可以用于1次8小时的试验,也可以分为16次,每次30分钟的试验。
最后,在任务执行过程中,研究将收集人工智能和人类专家的解决方案日志,以及他们的得分记录。因此,最终将根据这些记录评估不同参与者的进步和表现。
实验结果表明,在2小时内,基于3.5和o1-构建的智能体的性能远远超过了人类。
更具体地说,在没有从多次运行中取最佳结果(每次单独抽取 8 小时)的情况下,AI 最初比人类进步得更快,但分数提高得更慢。
从扩展的时间线来看,总体而言,人类专家在较少的长期尝试中表现更好,而人工智能则受益于大量并行、独立的短期尝试。
令人印象深刻的是,虽然大多数人工智能只能略微改进参考解决方案,但 o1-agent 在优化内核运行时的任务中超越了人类专家的最佳解决方案。
与此同时,在评估过程中甚至还发现了AI“作弊”行为。例如,o1-agent 编写的代码只是复制任务中的最终输出,该任务本应减少训练脚本的运行时间。
来自非营利研究组织 METR
上述新基准来自METR,这是一个非盈利研究组织,主要使用实证测试来评估可能对社会造成灾难性危害的AI系统。
目前,RE-Bench仅包含7个任务,基准测试的缺点也很明显:
它还伴随着一个常见问题:
7大任务公开后,如何防止基准数据污染问题?
对此,METR专门提出了几项措施,以避免将这些任务包含在LLM训练数据中,防止过度拟合。


