在演示中,当被要求回答“列出 2 世纪罗马皇帝的名字、术语和主要成就”时,o1 模型“思考”了 14 秒,而 o1 预览则花了 34 秒。顺便说一句,能力更差的 GPT-4o 在回答这个问题时也犯了错误。
o1模型的另一个重要更新是支持图像输入。现在在询问模型“空间数据中心散热问题”时可以附上手绘示意图。它表示计划在未来几个月内增加对网页浏览、文件上传和其他功能的支持。

o1 pro 模式在数学、科学和编码方面具有挑战性的机器学习 (ML) 基准方面优于 o1 和 o1-。数学方面,O1专业模式得分为86分,O1和O1-分别得分为78分和50分。在编码方面,O1 Pro 模式得分为 90,O1 和 O1- 分别得分为 89 和 62。在Q&A博士级别科学题中,O1专业模式得分为79分,后两者分别为76分和74分。
为了凸显o1 pro模式的主要优势——更高的可靠性,评测门槛也被提高了。要求模型只有在四次尝试中正确回答问题四次而不是仅回答一次时才可以认为已经解决了问题。 。即使在如此高的标准要求下,o1 pro模式的性能也明显强于o1和o1-。

从下图可以看出,在四个问题和答案都必须正确的标准下,o1 pro模式比o1和o1-有更大的优势。数学方面,O1专业模式得分为80分,O1和O1-分别为67分和37分。编码方面,O1 pro模式得分为75分,O1和O1-分别为64分和26分。在回答博士级别的科学问题方面,O1 pro 的模式得分为 74,后两者分别为 67 和 58。
值得注意的是,Pro是最新推出的订阅级别,价格比Plus贵10倍。

每月支付 200 美元,用户可以无限制地使用 o1 模型(Plus 用户目前每周只能发送 50 条消息),以及无限制地使用 o1 mini 和高级语音模式以及 o1 pro 模式。
官方定义称,o1 pro将使用更多的计算资源进行深入思考,并为“最困难的问题提供最佳答案”。未来,该订阅级别还将添加更强大、计算密集型的功能。
演示中证明,通过设定一系列苛刻的条件,o1 pro可以筛选出符合条件的蛋白质。

公告中还提到,向 10 名医学研究人员免费赠送 Pro,研究领域涵盖孤儿病、癌症、痴呆症等。这大概也是使用该订阅服务的人群的写照。
在整个会议结束时, 还提到明天的演示将为开发人员提供“很棒的东西”。

每日经济新闻综合公共信息
每日经济新闻


