OpenAI 发布新模型 OpenAIo1，号称最强最一致，三张图让你头皮发麻_其他资讯_资讯

特别指出的是，这次在没有任何预兆的情况下，就发布了大家心心念念已久的新车型。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_

我之前谈到过草莓，但是一张草莓的照片却让人们笑了好几天。

因此，这款新车型与 Hair毫无关系，而是被赋予了一个全新的名字。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧__OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

这东西现在已经被称为巅峰技术了，而奥特曼也直接发文表示这是他们目前为止最强，最稳定的型号。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧__OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

与以往不同的是，这次并没有过多的渲染这个东西到底有多牛，只是几张照片就让人头皮发麻。

如下图所示，三个测试项目的结果可以说明这一点：国际数学奥林匹克、编程竞赛和博士级科学问题。

最左边的是GPT-4o，中间的是目前可用的预览版o1，最右边那高高的红柱子才是满血的o1。

你看，几乎在每一项上，o1都比它的前辈提高了近8倍。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_

如果我们分解这些测试结果，新的o1几乎在各个学科和领域都超过了4o。

_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

真正可怕的是，他们说是专门请了一位博士专家来帮忙解答。

在博士级别的测试结果中我们可以看到o1的答题分数全部超过了博士级专家，o1的得分是78分，而人类的得分是69.7分。

连医生都输了，我又拿什么跟它相比呢？

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧__OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_

敏感的网友们顿时怒了，纷纷大呼“新神出现了”。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧__OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

只要翻阅，你就会发现所有带有“最佳”字样的好评，例如“绝对惊人！”和“最接近人类推理的东西”。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧__OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

甚至有不少朋友来到我们的后台说，“O1，你真是太棒了。”

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧__OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

这听起来不是很棒吗？他们显然也这么认为。

具体花费多少钱还没有公布，但是从用户体验来看，这东西值多少钱是显而易见的。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_

o1 预览版每百万输入 15 美元，每百万输出 60 美元

此次提供给用户的甚至不是完整版，而是一个早期预览版和一个小型阉割版。

即使你只是想成为第一个尝试的人，它也不是免费的。即使你付费成为会员，你的问答次数也会受到限制。

预览版每周仅发布 30 篇帖子，迷你版每周仅发布 50 篇帖子。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧__OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

虽然有点贵，但是我们当然不能想吹就吹。

不是说比 PhD 好吗，我充了几个账号，自己去找几个 PhD 测试了一下。

为了保证专业性和客观性，我们特别邀请了生物学、固体物理学、材料化学等三个综合理科学科的博士参与评测。

_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

其中，南京大学固体物理专业崔博士给予了最高评价，他觉得O1已经达到了60-80分（满分100分）的水平。

甚至有的答案可以给90分。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_

崔博士提出的第一个问题是：在长距离分发纠缠光子时，有没有办法克服白噪声？

大概9秒的时间，o1给出了10条可行的措施。

当然，这一切对我来说都不清楚。

但崔博士的评价是可以接受的：解答很全面，符合现有的最新研究进展，属于科普水平。

其中提到的自适应光学方向更是今年的最新成果。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_

与旧版4o相比，差异立刻就显现出来。

且不论是否提到新方向，单是给出的措施数量就有很大差别。

_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

所以后来我们专门问了自适应光学这个新方向：利用量子纠缠的什么原理来提高信噪比？能不能推广到量子自适应光学？

经过几轮解答，崔博士给了我80-90分的高分，并大方地向我承认他的一些思路是他的薄弱之处，为他指明了方向。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_

然而，当我们进一步询问时，问题就暴露出来了。

当被问及更困难的实验细节时，o1的回答就变得不那么有效了。

_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

但总体来说，在物理方面，o1的表现还是不错的，相比老款，提升了20分左右。

然而，在考试中，物理得分最高。

于是我们请来了北京大学材料化学专业的K博士，问了一些分数最低的化学方面的难题。

K博士问了一系列关于Fe-N4的问题，o1给出了一长串的答案。为了节省篇幅，我们在这里只展示部分问题和结果。

_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

整体测试之后，K博士的评价也差不多：他可能有研究生的水平，但是对问题的深入理解和解决问题的能力比较模糊，主要根据已知内容回答问题。

比如问它Fe-N4怎么调，o1能告诉你是根据电子状态来调的，但如果你问它怎么调的话，它就有点卡了。

虽然比起gpt4o来说废话少了点，但都无法针对具体问题给出太多建议，老版本废话连篇，没有细节，新版本则因为功能有限而无话可说。

_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

除了这两个之外，综合科学三门学科里肯定少不了生物学。

我们也咨询了清华大学生物专业的辛博士，他的问题是：“如何从质谱数据中区分赖氨酸残基的乳酸化和羧乙基化修饰？”

虽然没看懂，但是o1也给了很长的回答，就像论文综述一样，最后还附上了参考文献。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧__OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

但令人吃惊的是，当我们把这个答案交给辛博士后，他看完却发现不对劲，一看就是一个与丁真有关的问题。

并不是说AI的答案全都错了，而是AI在参考文献中编造了无稽之谈，而且这篇论文根本不存在！

虽然是剪辑了，但剪辑得并不彻底，总体来说，这位清华博士还是觉得比之前的AI强太多了，至少理解能力是肉眼可见的，剪辑也非常类似。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧__OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

不过不同方向的博士学位评价是不一样的，这可能也和o1本身的专业领域有关。

从官方公布的科学成绩来看，虽然gpt4o的生物成绩比化学、物理要高，但这次的o1就完全不一样了。

o1的物理成绩达到了92.8，远高于其他两门科目，这或许也是崔博士看好它的原因。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_

总体来说，说到超越专业博士生的水平，博士生们认为还需要一定的时间。

崔博士直言，真正的科研，大部分情况下还是要学者们自己动手，AI只能提供一个大方向，花钱搞这么细致的AI没什么意义。

他建议本科生选择这个AI，如果是硕士、博士阶段，AI的答案肯定达不到导师的标准，在组会上肯定会受到批评。

清华大学的辛博士也持同样的观点。且不说AI的幻听、捏造文献的问题，从专业性上讲，AI的答案只能糊弄其主修同行，也就是同一专业学科不同方向的人；但在辅修同行，也就是专门从事该方向研究的人眼里，AI的问题还是很明显的。

北京大学的K博士则讲得更加深入，他认为AI在认知方面只能说拥有硕士生的水平，只是拼凑起来的，无法产生什么创造性的成果，在创造力方面，AI远远不如硕士生或者博士生的水平，这也是AI需要解决的重要问题。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧__OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

在对医生的评价中，我们似乎能够抓住一个关键点：o1模型之所以相对更强，是因为它有更高维的认知和思维模式。

这也是o1这次更新的重点，我们在官网上找到了to with LLMs的文章，里面说他们主要用的是长思考链（CoT），而不是传统的提示链。

乍一看可能有点让人困惑，但简单来说，这个大模型改变了以前你问我我答的思维方式。

在之前的模型中，大模型的问答就像是下意识的给出答案，比如你问我天空是什么颜色，我会不假思索的回答蓝色，这其实是要求我已经知道这个知识点，然后直接给你答案。

但这个漫长的思考链相当于我不仅需要知道什么是蓝色，还要考虑到大气散射和光谱波长，推断出为什么它是蓝色。

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_

这就要求人工智能必须具备构建逻辑和推理、证明事物的能力。换句话说，它不仅需要有大脑，还需要使用大脑。

虽然Mind Chain的概念早在2022年就由谷歌提出，但这是第一次付诸实践。

在实际操作过程中，当你和o1模型对话的时候，除了得到答案之外，还可以选择展开，看看它在回答问题时的思维逻辑，它的思维是具体的，而不是黑箱的。

比如，我们以崔博士的问题“长距离纠缠光子分布中，有哪些方法可以克服白噪声？”为例，o1模型的思考过程如下：

_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

不过，就像它无法解决专业领域的问题一样，日常场景中的一些简单问题似乎也能难倒它。

拿9.11、9.8的经典例子来说，小红书网友@小水刚醒发现这东西“一增加难度就崩溃了……无限循环狂推Chain of Tales（CoT）”

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_

我们编辑部自己评审的时候也发现了这个问题，但是问为什么的时候，马上就意识到自己的推理有误，然后重新推理。

好好好，你不愧是医生，很会找茬儿啊？

OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_

经过一轮全面的测试后，我不得不承认它确实有了很大的改进。

从效果上来说，确实比上一代要好，而且长远的思考应用，对未来AI的发展是有益的。

但经过几位医生轮番鞭策，它的问题就显现出来了，在创造力等方面，它无法取代人类博士专家。

_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧_OpenAI新模型媲美博士？我找清北博士品鉴了一下：醒醒吧

不过，研究员诺姆·布朗透露，未来版本的o1将能够思考数小时、数天甚至数周。虽然这会花费更多金钱，但对于开发抗癌药物等任务来说，这是值得的。

另外我觉得GPT o1实现的思维链模型很有可能会引领全球大模型的方向，就像之前的架构、DiT架构一样。

所以，AGI之路并不近也不远，期待下一轮选手的登场。

• 践行契约精神，免费领取综合脚手架搭设施工合同	• 前言：我们生活离不开钢铁，中国是产钢大国，跟
• 20CrNiMo化学成分全解析：碳硅锰铬镍钼元素作用	• 欢迎钢材废料及再生资源回收行业朋友加入群交流
• 2024钢铁产业链高峰论坛：赵海龙谈数智化与金融	• 河北省18部门联合印发消费品以旧换新实施方案，
• 荣兴寄语：从航母梦到国产航母下水的感慨与历史	• 废钢回收及各类回收信息对接:价格、平台与合作
• 本周钢铁行业点评：集体断贷、大宗商品价格下跌	• 疫情恢复宏观刺激下黑色市场趋势止跌反弹分析

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

OpenAI 发布新模型 OpenAIo1，号称最强最一致，三张图让你头皮发麻

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司