OpenAI发布下一代模型o3,双12直播活动奥特曼现身,性能大幅提升

   日期:2024-12-21     来源:网络整理    作者:二手钢材网    浏览:175    评论:0    
核心提示:o3相比o1最突出的成绩,一是顶尖程序员竞赛CodeForces分数超过2700,人类超过这个分数的目前只有不到200个。此前陶哲轩对这项测试的第一印象是“可能难住AI好几年”。人类专业数学家解决其中一道题目也要花费数小时到数天,现在o3只需要思考几分钟。

量子比特 |公众号

下一代车型公布,o1之后直接到o3!

“双12”直播活动最后一天,大事终于来了,奥特曼本人再次出现在直播间。

o3相比o1最突出的成绩就是顶级程序员竞赛分数超过2700,目前超过这个分数的人类还不到200人。

其次,为AGI准备的测试ARC-AGI的分数从32%跃升至75.7%和87.5%。

为什么有两个等级?

因为o3有两个设定:低思维等级和高思维等级。

_编程数学题_编程难题

_编程数学题_编程难题

ARC-AGI是由Keras之父François发起的测试基准。典型的问题是图形逻辑推理。

_编程难题_编程数学题

另一个最难的数学测试“数学”包含最新未发表的尖端问题。

陶哲轩对这次测试的第一印象是,AI可能很难工作几年。

编程难题_编程数学题_

o3相比之前的SOTA,从2分提升到了25分。

人类专业数学家需要花费数小时到数天的时间才能解决其中一个问题,但现在 o3 只需要几分钟的思考。

_编程数学题_编程难题

_编程难题_编程数学题

此次还发布了o3-mini,支持低、中、高三种思维级别设置。

主要体现的是编码能力。在低设置下,o3-mini 与 o1-mini 几乎相同。高设置下已经超越了o1正式版。

编程数学题__编程难题

参与o3-mini研究的北大校友任宏宇现场演示了新模型的编程能力。

编程难题_编程数学题_

他使用了一个称为 alpha 的特殊版本。

任务如下:

o3-mini的思考过程花了38秒,然后代码秒出来了,一口气操作成功。

编程难题__编程数学题

编程数学题__编程难题

编程难题_编程数学题_

这个演示可能并不直观,但另一位不在现场的研究人员艾丹·克拉克却已经出了一身冷汗。

_编程难题_编程数学题

总结一下,o3-mini用了38秒为自己写了一个UI,并通过API调用“self”。

在后续的演示中,任鸿宇要求o3-mini在这个UI中编写并执行一个脚本,以低层次的思维评估“自己”在GPQA数据集上的表现。

_编程难题_编程数学题

脚本正确运行评估,返回结果值为61.62%,与正式评估结果基本一致。

_编程难题_编程数学题

是不是感觉有点像科幻小说呢?

_编程难题_编程数学题

编程难题__编程数学题

可惜啦~o3和o3-mini目前处于早期预览状态,只能玩。

安全研究人员可以在官网申请抢先体验。

北大校友及GPT-4o核心开发者亮相直播间

本次直播中另一件值得关注的事情是北大校友任宏宇(最左)的全新亮相

他去年刚加入,担任研究科学家,主要负责语言模型训练。他是GPT-4o的核心开发者,也是GPT-Next项目团队的成员。

编程数学题__编程难题

最近在直播中透露他还参加了9月份的o1-mini,证实了之前的传闻,即o1-mini主要负责三个中国人(另外两个是Kevin Lu和Yu)

任宏宇博士毕业于斯坦福大学。加入之前,他在苹果公司、苹果公司、苹果公司、苹果公司拥有丰富的研究实习经验。

编程数学题__编程难题

还有一件事

编程难题_编程数学题_

笑死了,最后一天戴着圣诞帽的“青蛙”直接放在最前面:

编程难题__编程数学题

事实上,他们在之前的每场节目中都有出现,只是被放在后面的架子上,而且数量随着直播天数的增加而增加。

昨天是直播第11天,圣诞帽“青蛙”属于姜阿姨:

_编程难题_编程数学题

你数过圣诞节有多少只“青蛙”吗?

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2