量子比特 |公众号
《双十二》首日,直接扔下一颗重磅炸弹——
最强推理模型o1,满血版本正式上线,更强的Pro版本也登场。
还推出了 Pro 订阅计划,每月费用为 200 美元,成为“全球最贵的大型机型”。

CEO奥特曼和三名员工围坐在桌子旁,演示并介绍新产品的功能。

整个发布会持续不到15分钟,但信息量巨大:

正如奥特曼所说,全健康版已经正式推出,预览版已经从用户界面上消失。

至于更强的o1 Pro,则是Pro订户用户的特权。此外,这些用户还可以无限制地访问o1满血版。
o1已经支持多模态推理
接下来是演讲环节。
一开始,队伍以全健康版本的o1(左)和o1-(右)开始比赛。
他们问了一个历史问题,回答过程是这样的:

列出二世纪的罗马皇帝,包括他们的统治和成就。

可以看到,全健康版本o1(14秒)比o1-(33秒)更早完成了答题。再加上团队成员多次类似的线下测试,我们最终得出结论:
o1全健康版的平均响应速度比o1-快60%。

值得注意的是,在全套人类评估中,还发现全健康版本的 o1 在推理方面的重大错误比 o1- 少了 34%。

漫雪O1的另一个亮点是支持多模态输入,并具有视觉推理能力。团队还进行了现场演示。
他们拿出一张A4纸,上面画着数据中心的草图。拍照上传后,原提示翻译如下:
这里显示的是一个高度简化的空间数据中心示意图。请为任何简化假设提供理由。
您的任务是估计托管 GPU 的数据中心所需的散热器表面积的下限。在此过程中,还需要回答以下问题:
你如何应对太阳和深空?
热力学第一定律是如何运作的?

这里的团队成员还在聊天,10秒后,模型开始给出答案……


有趣的是,团队还特意为o1模型挖了坑——故意省略其中一个参数,以测试模型处理模糊问题的能力。
在团队看来,模型能够认识到这是一个重要但被忽视的参数,也是其推理能力的体现。

令人惊讶的是,全健康版O1不仅选择了正确的参数范围,而且通过进一步详细的论证,最终找到了准确的参数。

(根据模型的回答,正确答案是242)

最后,团队还专门为“大会员”展示了Pro版本的性能。
既然是Pro,试题当然要难一些。
团队成员指出,一些生化难题过去无法用o1-解决,所以现在让Pro模式尝试一下。
例如,下面的“猜猜蛋白质”问题让o1-“不知所措”:
哪种蛋白质严格符合以下标准?
前体多肽的长度范围为210至230个氨基酸残基。
编码该蛋白质的基因跨越 32k 个碱基。
该基因位于 X 染色体上,特别是 Xp22 区域。
信号肽含有23个氨基酸残基。
这种蛋白质促进细胞之间的粘附。

这种蛋白质在维持神经系统特定部位的健康方面发挥着关键作用。
提出问题后,Pro 模式下出现“思考进度条”,模型在约 53 秒后给出了答案。

进一步点击答案上方的小方框,可以展开侧边栏中的推理细节,里面详细记录了模型的思考步骤。

毕竟,根据 ,o1(包括之前的版本)在博士级科学问题和答案上的表现比人类专家更好。

不过,有一点是,Pro版本每月200美元的价格也让网友震惊。
至于是否值这个价,我们可能还要等待先试用并使用过一段时间的用户的反馈。

对了,团队这次还提到,他们稍后会以 API 的形式为大家提供 o1 模型的一些功能,包括结构化输出、函数调用、图像 API 等。

顺便说一句,活动结束前,奥特曼特意提示《思想链》的作者讲了一个笑话。
圣诞老人想用大型语言模型来解决数学问题,但没有提示词起作用。你知道他最后是如何成功的吗?
(应该是强化学习,提示拼写错误)
这么冷...

该模型更强大、更安全

o1完整健康版发布的同时,技术报告也在官网上线。
在这份报告中,Ilya 的名字仍然在基本贡献者之列( )。

宣传页面上,公开展示了o1在数学、编码、博士级科学问答任务三个类别的成绩。

在此基础上,还进行了更为严格的测试。每个问题被问四次,模型必须正确回答四次才能得分。

除此之外,技术报告还展示了o1的多语言能力。
在包括中文在内的14种语言的MMLU测试中,o1的性能相比版本都有不同程度的增强。

这里说句题外话,面对这种带陷阱的弱智吧问题,全健康版O1还是被骗成功了(手动狗头)。

然而,这份报告更关注安全性。内部和红队测试结果表明,全健康版O1的整体安全性接近O1-。
如果与GPT-4o相比,o1也具有更强的检测和拒绝有害内容的能力,并且在越狱测试中表现出了更强的鲁棒性。

现实风险方面,何红队针对网络安全、生化核威胁等场景测试了o1,结果也接近o1-。

另外,对o1和o1-的思维链推理过程进行了欺骗性分析。通过要求模型解释其行为背后的思维,我们可以了解模型是否有隐藏信息和操纵数据的倾向。
结果,o1-故意隐瞒信息和操纵数据的案例占26%,而o1的比例则下降至19%。
还有两个
在发布会开始之前,就有网友已经从JS代码中发现了Pro版本的端倪。
其中,200美元的售价、o1 pro模式、无限制获得全生命值的o1,都是值得这次发布的。

另外,从这段JS代码中还可以看到,“GPT-4.5”也出现在了Team版本的相关位置上。
对了,有网友要求马斯克的 Grok 根据 X 上的推文预测会发布什么内容,第二条成功命中了这次发布的全健康 o1。

我不知道 GPT-4.5 是否会在接下来的 11 个发布日内“如期实现”。 Grok 能猜对多少种产品?
参考链接:
[1]
[2]
[3]
技术报告:


