量子比特 |公众号
下一代车型公布,o1之后直接到o3!
“双12”直播活动最后一天,大事终于来了,奥特曼本人再次出现在直播间。
o3相比o1最突出的成绩就是顶级程序员竞赛分数超过2700,目前超过这个分数的人类还不到200人。
其次,为AGI准备的测试ARC-AGI的分数从32%跃升至75.7%和87.5%。
为什么有两个等级?
因为o3有两个设定:低思维等级和高思维等级。


ARC-AGI是由Keras之父François发起的测试基准。典型的问题是图形逻辑推理。

另一个最难的数学测试“数学”包含最新未发表的尖端问题。
陶哲轩对这次测试的第一印象是,AI可能很难工作几年。

o3相比之前的SOTA,从2分提升到了25分。
人类专业数学家需要花费数小时到数天的时间才能解决其中一个问题,但现在 o3 只需要几分钟的思考。


此次还发布了o3-mini,支持低、中、高三种思维级别设置。
主要体现的是编码能力。在低设置下,o3-mini 与 o1-mini 几乎相同。高设置下已经超越了o1正式版。

参与o3-mini研究的北大校友任宏宇现场演示了新模型的编程能力。

他使用了一个称为 alpha 的特殊版本。
任务如下:
o3-mini的思考过程花了38秒,然后代码秒出来了,一口气操作成功。



这个演示可能并不直观,但另一位不在现场的研究人员艾丹·克拉克却已经出了一身冷汗。

总结一下,o3-mini用了38秒为自己写了一个UI,并通过API调用“self”。
在后续的演示中,任鸿宇要求o3-mini在这个UI中编写并执行一个脚本,以低层次的思维评估“自己”在GPQA数据集上的表现。

脚本正确运行评估,返回结果值为61.62%,与正式评估结果基本一致。

是不是感觉有点像科幻小说呢?


可惜啦~o3和o3-mini目前处于早期预览状态,只能玩。
安全研究人员可以在官网申请抢先体验。
北大校友及GPT-4o核心开发者亮相直播间
本次直播中另一件值得关注的事情是北大校友任宏宇(最左)的全新亮相
他去年刚加入,担任研究科学家,主要负责语言模型训练。他是GPT-4o的核心开发者,也是GPT-Next项目团队的成员。

最近在直播中透露他还参加了9月份的o1-mini,证实了之前的传闻,即o1-mini主要负责三个中国人(另外两个是Kevin Lu和Yu)
任宏宇博士毕业于斯坦福大学。加入之前,他在苹果公司、苹果公司、苹果公司、苹果公司拥有丰富的研究实习经验。

还有一件事

笑死了,最后一天戴着圣诞帽的“青蛙”直接放在最前面:

事实上,他们在之前的每场节目中都有出现,只是被放在后面的架子上,而且数量随着直播天数的增加而增加。
昨天是直播第11天,圣诞帽“青蛙”属于姜阿姨:

你数过圣诞节有多少只“青蛙”吗?


