圣诞节前谷歌与OpenAI的推理模型攻防战:OpenAI推出最强o3模型

   日期:2024-12-21     来源:网络整理    作者:二手钢材网    浏览:246    评论:0    
核心提示:谷歌和OpenAI正面对垒,谷歌刚发布自家的先进推理模型挑战OpenAI的o1,第二天,OpenAI就推出了升级版的最强推理模型o3。虽然o3的测评看上去表现惊艳,但OpenAI应该不会很快面向大众上线这款新的超级推理模型。

美国东部时间12月20日周五,12个工作日线上新品发布活动最后一天,“最终力作”揭晓:下一代车型o1、o3两个版本即将上市从一开始。一个正式的o3,还有一个相对较小的精简版o3-mini。

CEO Sam在直播中提到,12日活动首日,o1正式版,即所谓的全健康o1正式公布。活动最后一天,o3再次出现。推理模型的介绍从头到尾都是呼应的,也算是一种精心的设计。

按理来说,下一代o1应该命名为o2。至于新型号为何被称为o3,此前媒体表示,是为了避免与名为O2的英国电信服务提供商发生冲突。他也证实了这一点,并表示出于对O2的尊重,他没有给他们起同样的名字。

在直播中,他称o3是“一个非常非常聪明的模特”。评测结果还显示,o3在软件工程、编写代码、竞技数学、人类博士级别的自然科学知识掌握能力等方面均明显优于o1。同时,测试表明,o3在实现通用人工智能(AGI)目标方面取得了突破,最高测试结果达到类人水平。

o3软件工程的测试准确率比o1高出近47%,竞赛数学高出15%,人类博士专家生物化学高出近13%。

今年9月,o1预览版发布时,o1表示o1是第一个真正具有通用推理能力的大型模型。其核心能力推理在化学、物理、生物专业知识测试基准GPQA上得到全面测试。反映。据评测,o1在本次测试中全面超越人类博士专家,准确率达到78.3%,而人类专家得分为69.7%。

本周五的直播展示了o3的评测表现:

超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场_超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场_

_超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场_超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场

类人智能的突破。 AGI相关测试的最佳结果达到了人类水平。

除了上述与o1相比的编码、数学、自然科学评测结果外,周五还表明o3的推理能力更接近于实现AGI。

o1 和 o3 均进行了名为 ARC-AGI 的测试。 ARC-AGI 是一项旨在评估人工智能系统是否能够有效获取训练数据之外的新技能的测试。使用半私人评估集验证评估结果。

如下图所示,以100%为最高分的ARC-AGI评估结果显示,o1的得分范围为25%至32%,而o3的最低得分为75.7%,最高得分为87.5%。从这个成绩来看,o3的最好成绩超过了85%的门槛,达到了人类水平。

超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场__超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场

创建ARC-AGI标准的前谷歌高级工程师和人工智能研究员弗朗索瓦表示,这些推理模型在AGI测试方面取得进展“稳健”。

在社交媒体上的帖子中

解释说,在低计算模式下,即每个任务计算 20 美元的半私密评估中,o3 得分为 75.7%,而在高计算模式下,即每个任务数千美元的评估计算中,o3 得分为 75.7% 87.5%。这不仅仅是蛮力,它是一个新领域的功能,需要科学界的认真关注。

超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场__超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场

计划明年初发布o3,但可能在一段时间内不会向公众开放。

虽然o3的评测表现看起来很惊人,但这个新的超级推理模型应该不会很快向公众推出。

从本周五开始,安全研究人员可以注册访问 o3 和 o3-mini 的预览版。该公司发言人周五表示,计划明年初正式发布这些新的 O3 车型。

在周五的直播中,有人暗示o3系列可能在一段时间内不会向公众推广。因为他表示,在正式发布新的推理模型之前,他更希望有一个联邦测试框架来指导监控和减轻此类模型的风险。解释,

在 O3 发布之前,“应该有某种联邦测试框架,表明我们最感兴趣的是监控和减轻危险,类似于这里的一组测试,在发布它之前,你必须能够证明,这个模型在这些领域表现良好“它安全吗,就像使用新药或新飞机或其他什么一样。”

周四,谷歌宣布推出新的测​​试模型——Flash 2.0。它采用类似于o1模型的慢速思维方法,可以深度可视化整个思维链过程,尤其是在执行数学、编程等复杂问题时。

与o1相比,2.0 Flash最大的不同在于,它可以让用户更清楚、透明地看到一步一步的推理过程,了解模型是如何得出结论的。一经亮相就登上了Arena大型机型评测榜首。不过,谷歌的这个新模型仍处于实验阶段,只是一个早期版本。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2