OpenAI重磅发布最强推理模型o1及Pro版本,ChatGPT Pro订阅计划震撼上线

   日期:2024-12-06     来源:网络整理    作者:二手钢材网    浏览:167    评论:0    
核心提示:最强推理模型o1,正式上线满血版,还有更强的Pro版本一同登台。如奥特曼所说,满血版已经正式上线ChatGPT,作为预览的preview版从用户界面中消失了。Pro订阅用户的特权,除此之外,这些用户还可以获得o1满血版的不限量访问权限。o1满血版发布的同时,技术报告也在OpenAI官网上线。

量子比特 |公众号

《双十二》首日,直接扔下一颗重磅炸弹——

最强推理模型o1,满血版本正式上线,更强的Pro版本也登场。

还推出了 Pro 订阅计划,每月费用为 200 美元,成为“全球最贵的大型机型”。

订阅直播什么意思__直播订阅对主播有什么用

CEO奥特曼和三名员工围坐在桌子旁,演示并介绍新产品的功能。

直播订阅对主播有什么用__订阅直播什么意思

整个发布会持续不到15分钟,但信息量巨大:

订阅直播什么意思__直播订阅对主播有什么用

正如奥特曼所说,全健康版已经正式推出,预览版已经从用户界面上消失。

_订阅直播什么意思_直播订阅对主播有什么用

至于更强的o1 Pro,则是Pro订户用户的特权。此外,这些用户还可以无限制地访问o1满血版。

o1已经支持多模态推理

接下来是演讲环节。

一开始,队伍以全健康版本的o1(左)和o1-(右)开始比赛。

他们问了一个历史问题,回答过程是这样的:

直播订阅对主播有什么用__订阅直播什么意思

列出二世纪的罗马皇帝,包括他们的统治和成就。

订阅直播什么意思_直播订阅对主播有什么用_

可以看到,全健康版本o1(14秒)比o1-(33秒)更早完成了答题。再加上团队成员多次类似的线下测试,我们最终得出结论:

o1全健康版的平均响应速度比o1-快60%。

_直播订阅对主播有什么用_订阅直播什么意思

值得注意的是,在全套人类评估中,还发现全健康版本的 o1 在推理方面的重大错误比 o1- 少了 34%。

_订阅直播什么意思_直播订阅对主播有什么用

漫雪O1的另一个亮点是支持多模态输入,并具有视觉推理能力。团队还进行了现场演示。

他们拿出一张A4纸,上面画着数据中心的草图。拍照上传后,原提示翻译如下:

这里显示的是一个高度简化的空间数据中心示意图。请为任何简化假设提供理由。

您的任务是估计托管 GPU 的数据中心所需的散热器表面积的下限。在此过程中,还需要回答以下问题:

你如何应对太阳和深空?

热力学第一定律是如何运作的?

订阅直播什么意思__直播订阅对主播有什么用

这里的团队成员还在聊天,10秒后,模型开始给出答案……

订阅直播什么意思_直播订阅对主播有什么用_

直播订阅对主播有什么用__订阅直播什么意思

有趣的是,团队还特意为o1模型挖了坑——故意省略其中一个参数,以测试模型处理模糊问题的能力。

在团队看来,模型能够认识到这是一个重要但被忽视的参数,也是其推理能力的体现。

直播订阅对主播有什么用__订阅直播什么意思

令人惊讶的是,全健康版O1不仅选择了正确的参数范围,而且通过进一步详细的论证,最终找到了准确的参数。

直播订阅对主播有什么用__订阅直播什么意思

(根据模型的回答,正确答案是242)

订阅直播什么意思__直播订阅对主播有什么用

最后,团队还专门为“大会员”展示了Pro版本的性能。

既然是Pro,试题当然要难一些。

团队成员指出,一些生化难题过去无法用o1-解决,所以现在让Pro模式尝试一下。

例如,下面的“猜猜蛋白质”问题让o1-“不知所措”:

哪种蛋白质严格符合以下标准?

前体多肽的长度范围为210至230个氨基酸残基。

编码该蛋白质的基因跨越 32k 个碱基。

该基因位于 X 染色体上,特别是 Xp22 区域。

信号肽含有23个氨基酸残基。

这种蛋白质促进细胞之间的粘附。

直播订阅对主播有什么用_订阅直播什么意思_

这种蛋白质在维持神经系统特定部位的健康方面发挥着关键作用。

提出问题后,Pro 模式下出现“思考进度条”,模型在约 53 秒后给出了答案。

订阅直播什么意思_直播订阅对主播有什么用_

进一步点击答案上方的小方框,可以展开侧边栏中的推理细节,里面详细记录了模型的思考步骤。

直播订阅对主播有什么用_订阅直播什么意思_

毕竟,根据 ,o1(包括之前的版本)在博士级科学问题和答案上的表现比人类专家更好。

_直播订阅对主播有什么用_订阅直播什么意思

不过,有一点是,Pro版本每月200美元的价格也让网友震惊。

至于是否值这个价,我们可能还要等待先试用并使用过一段时间的用户的反馈。

_订阅直播什么意思_直播订阅对主播有什么用

对了,团队这次还提到,他们稍后会以 API 的形式为大家提供 o1 模型的一些功能,包括结构化输出、函数调用、图像 API 等。

_订阅直播什么意思_直播订阅对主播有什么用

顺便说一句,活动结束前,奥特曼特意提示《思想链》的作者讲了一个笑话。

圣诞老人想用大型语言模型来解决数学问题,但没有提示词起作用。你知道他最后是如何成功的吗?

(应该是强化学习,提示拼写错误)

这么冷...

_直播订阅对主播有什么用_订阅直播什么意思

该模型更强大、更安全

直播订阅对主播有什么用_订阅直播什么意思_

o1完整健康版发布的同时,技术报告也在官网上线。

在这份报告中,Ilya 的名字仍然在基本贡献者之列( )。

订阅直播什么意思_直播订阅对主播有什么用_

宣传页面上,公开展示了o1在数学、编码、博士级科学问答任务三个类别的成绩。

订阅直播什么意思__直播订阅对主播有什么用

在此基础上,还进行了更为严格的测试。每个问题被问四次,模型必须正确回答四次才能得分。

直播订阅对主播有什么用_订阅直播什么意思_

除此之外,技术报告还展示了o1的多语言能力。

在包括中文在内的14种语言的MMLU测试中,o1的性能相比版本都有不同程度的增强。

_直播订阅对主播有什么用_订阅直播什么意思

这里说句题外话,面对这种带陷阱的弱智吧问题,全健康版O1还是被骗成功了(手动狗头)。

直播订阅对主播有什么用__订阅直播什么意思

然而,这份报告更关注安全性。内部和红队测试结果表明,全健康版O1的整体安全性接近O1-。

如果与GPT-4o相比,o1也具有更强的检测和拒绝有害内容的能力,并且在越狱测试中表现出了更强的鲁棒性。

订阅直播什么意思_直播订阅对主播有什么用_

现实风险方面,何红队针对网络安全、生化核威胁等场景测试了o1,结果也接近o1-。

直播订阅对主播有什么用_订阅直播什么意思_

另外,对o1和o1-的思维链推理过程进行了欺骗性分析。通过要求模型解释其行为背后的思维,我们可以了解模型是否有隐藏信息和操纵数据的倾向。

结果,o1-故意隐瞒信息和操纵数据的案例占26%,而o1的比例则下降至19%。

还有两个

在发布会开始之前,就有网友已经从JS代码中发现了Pro版本的端倪。

其中,200美元的售价、o1 pro模式、无限制获得全生命值的o1,都是值得这次发布的。

_直播订阅对主播有什么用_订阅直播什么意思

另外,从这段JS代码中还可以看到,“GPT-4.5”也出现在了Team版本的相关位置上。

对了,有网友要求马斯克的 Grok 根据 X 上的推文预测会发布什么内容,第二条成功命中了这次发布的全健康 o1。

直播订阅对主播有什么用_订阅直播什么意思_

我不知道 GPT-4.5 是否会在接下来的 11 个发布日内“如期实现”。 Grok 能猜对多少种产品?

参考链接:

[1]

[2]

[3]

技术报告:

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2