推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

RE - Bench评估：2小时内Claude和o1超人类专家科研水平，长远看AI更适合并行处理

日期：2024-11-26 来源：网络整理作者：二手钢材网浏览：187 评论：0

核心提示：AI科研能力大比拼，也有新的评估基准了。但拐点过后，AI能力增速（在8小时内）却始终追不上人类。Sonnet、o1-preview）和50+人类专家的科研能力。总之一句话，不仅AI和人类各有所长，且不同AI都有自己最佳的科研节奏。

甚至人工智能也可以秘密地“欺骗”（doge）。事情是这样的——

人类与人工智能的科研能力竞争也有了新的评价基准。

它的代号为“RE-Bench”，由非营利研究组织METR推出，目的是找出当前AI智能体在自动化科学研究方面与人类专家水平的接近程度。

注意，下达命令后，AI和50多位人类专家开始暗中较量：

在最初的2个小时里，基于3.5和o1-构建的Agent（智能）的表现远远好于人类。

但拐点之后，AI能力的增长速度（8小时内）却始终无法赶上人类。

将时间延长至更长（至32小时）后，研究得出的结论是，当前的AI智能体更适合并行处理大量独立的短实验。

知名预测家伊莱看完上述结果后认为，这“大幅缩短”了他的AGI时间表（连续两年以2027年为中位数），这也引发了热议。

网上也有人表示，AI的自动化科学研究对于推动经济爆发性增长可能至关重要。

有些人甚至想象力大开，开始想象躺着赚钱的生活（doge）：

未来，AI代理会做科学研究，然后雇佣一群人写代码……

AI更适合大量并行的短期任务。长期的科学研究仍然依赖于人类。

在RE-Bench上，研究比较了基于大型语言模型（目前主要发布3.5、o1-）构建的与50+人类专家的科研能力。

值得注意的是，这些专家都拥有强大的机器学习背景，其中许多人在顶级行业实验室或机器学习博士项目中工作。

经过一番PK，研究得出以下主要结论：

总之，不仅人工智能和人类各有长处，而且不同的人工智能也有各自的最优科研节奏。

人类更适应更复杂、更长期的科学研究，而人工智能更适应大量并行的短期任务。

回到研究的起点，METR提出RE-Bench的主要原因是，虽然很多政府和企业都在强调AI智能体能否自动开发和发展是一个关键能力。但问题是：

现有的评估往往侧重于短期、狭隘的任务，缺乏与人类专家的直接比较。

因此，RE-Bench想做的就是全面评估AI科学研究所需的技能。本研究共提出7项建议：

这些任务被设计为需要≤8小时，以便人类专家可以使用合理的计算资源来完成它们，从而实现人类与人工智能之间的直接比较。

并且主办方特别提醒，要想获得高分，就必须最大限度地利用计算资源来完成这些复杂的任务。

总体来说，RE-Bench的运行机制如下：

首先，这七个任务是一个独立的评估环境，每个任务都有明确的目标，例如优化 GPU 内核或调整机器学习模型的超参数。

为了确保任务的可比性，每个环境都提供了一个有效但效率较低的参考解决方案，为代理和人类专家提供了基准点。

人工智能和人类专家都可以访问这些环境，并且都有权使用所需的计算资源，例如 GPU。

然后人工智能通过自然语言处理和编程能力来执行任务，而人类专家则通过编码和实验来完成任务。

执行后，每个环境都有一个评分功能，用于衡量代理或人类专家提交的解决方案的有效性。

当然，评分函数会根据解决方案的性能给出数值分数，然后将其标准化以方便环境之间的比较。

需要注意的是，该过程还涉及时间预算分配（时间）。现实情况是，人类专家通常被分配 8 小时来完成一项任务，而人工智能是根据实验设计在不同的时间限制下进行评估的。

例如，对于AI，8小时的预算可以用于1次8小时的试验，也可以分为16次，每次30分钟的试验。

最后，在任务执行过程中，研究将收集人工智能和人类专家的解决方案日志，以及他们的得分记录。因此，最终将根据这些记录评估不同参与者的进步和表现。

实验结果表明，在2小时内，基于3.5和o1-构建的智能体的性能远远超过了人类。

更具体地说，在没有从多次运行中取最佳结果（每次单独抽取 8 小时）的情况下，AI 最初比人类进步得更快，但分数提高得更慢。

从扩展的时间线来看，总体而言，人类专家在较少的长期尝试中表现更好，而人工智能则受益于大量并行、独立的短期尝试。

令人印象深刻的是，虽然大多数人工智能只能略微改进参考解决方案，但 o1-agent 在优化内核运行时的任务中超越了人类专家的最佳解决方案。

与此同时，在评估过程中甚至还发现了AI“作弊”行为。例如，o1-agent 编写的代码只是复制任务中的最终输出，该任务本应减少训练脚本的运行时间。

来自非营利研究组织 METR

上述新基准来自METR，这是一个非盈利研究组织，主要使用实证测试来评估可能对社会造成灾难性危害的AI系统。

目前，RE-Bench仅包含7个任务，基准测试的缺点也很明显：

它还伴随着一个常见问题：

7大任务公开后，如何防止基准数据污染问题？

对此，METR专门提出了几项措施，以避免将这些任务包含在LLM训练数据中，防止过度拟合。

标签： b:1:e:4:c:7:1:c:f:c:e:f:4:9:8:f:0:4:b:d:0:a:7:c:8:c:d:c:4:0:b:0

打赏

更多>同类资讯

0 条相关评论

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

RE - Bench评估：2小时内Claude和o1超人类专家科研水平，长远看AI更适合并行处理

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司