OpenAI 发布新模型 OpenAIo1,号称最强最一致,三张图让你头皮发麻

   日期:2024-09-15     来源:网络整理    作者:二手钢材网    浏览:199    评论:0    
核心提示:结果,这回新模型根本跟草莓毛关系没有,而是起了一个全新的名字OpenAIo1模型。我就冲了几个账号,去找了几个博士来亲测了一下。但在几位博士轮番鞭打完以后,它的问题也暴露得挺明显的,在创造力等某些方面,还替代不了人类博士专家。

特别指出的是,这次在没有任何预兆的情况下,就发布了大家心心念念已久的新车型。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_

我之前谈到过草莓,但是一张草莓的照片却让人们笑了好几天。

因此,这款新车型与 Hair毫无关系,而是被赋予了一个全新的名字。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧__OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

这东西现在已经被称为巅峰技术了,而奥特曼也直接发文表示这是他们目前为止最强,最稳定的型号。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧__OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

与以往不同的是,这次并没有过多的渲染这个东西到底有多牛,只是几张照片就让人头皮发麻。

如下图所示,三个测试项目的结果可以说明这一点:国际数学奥林匹克、编程竞赛和博士级科学问题。

最左边的是GPT-4o,中间的是目前可用的预览版o1,最右边那高高的红柱子才是满血的o1。

你看,几乎在每一项上,o1都比它的前辈提高了近8倍。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_

如果我们分解这些测试结果,新的o1几乎在各个学科和领域都超过了4o。

_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

真正可怕的是,他们说是专门请了一位博士专家来帮忙解答。

在博士级别的测试结果中我们可以看到o1的答题分数全部超过了博士级专家,o1的得分是78分,而人类的得分是69.7分。

连医生都输了,我又拿什么跟它相比呢?

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧__OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_

敏感的网友们顿时怒了,纷纷大呼“新神出现了”。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧__OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

只要翻阅,你就会发现所有带有“最佳”字样的好评,例如“绝对惊人!”和“最接近人类推理的东西”。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧__OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

甚至有不少朋友来到我们的后台说,“O1,你真是太棒了。”

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧__OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

这听起来不是很棒吗?他们显然也这么认为。

具体花费多少钱还没有公布,但是从用户体验来看,这东西值多少钱是显而易见的。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_

o1 预览版每百万输入 15 美元,每百万输出 60 美元

此次提供给用户的甚至不是完整版,而是一个早期预览版和一个小型阉割版。

即使你只是想成为第一个尝试的人,它也不是免费的。即使你付费成为会员,你的问答次数也会受到限制。

预览版每周仅发布 30 篇帖子,迷你版每周仅发布 50 篇帖子。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧__OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

虽然有点贵,但是我们当然不能想吹就吹。

不是说比 PhD 好吗,我充了几个账号,自己去找几个 PhD 测试了一下。

为了保证专业性和客观性,我们特别邀请了生物学、固体物理学、材料化学等三个综合理科学科的博士参与评测。

_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

其中,南京大学固体物理专业崔博士给予了最高评价,他觉得O1已经达到了60-80分(满分100分)的水平。

甚至有的答案可以给90分。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_

崔博士提出的第一个问题是:在长距离分发纠缠光子时,有没有办法克服白噪声?

大概9秒的时间,o1给出了10条可行的措施。

当然,这一切对我来说都不清楚。

但崔博士的评价是可以接受的:解答很全面,符合现有的最新研究进展,属于科普水平。

其中提到的自适应光学方向更是今年的最新成果。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_

与旧版4o相比,差异立刻就显现出来。

且不论是否提到新方向,单是给出的措施数量就有很大差别。

_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

所以后来我们专门问了自适应光学这个新方向:利用量子纠缠的什么原理来提高信噪比?能不能推广到量子自适应光学?

经过几轮解答,崔博士给了我80-90分的高分,并大方地向我承认他的一些思路是他的薄弱之处,为他指明了方向。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_

然而,当我们进一步询问时,问题就暴露出来了。

当被问及更困难的实验细节时,o1的回答就变得不那么有效了。

_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

但总体来说,在物理方面,o1的表现还是不错的,相比老款,提升了20分左右。

然而,在考试中,物理得分最高。

于是我们请来了北京大学材料化学专业的K博士,问了一些分数最低的化学方面的难题。

K博士问了一系列关于Fe-N4的问题,o1给出了一长串的答案。为了节省篇幅,我们在这里只展示部分问题和结果。

_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

整体测试之后,K博士的评价也差不多:他可能有研究生的水平,但是对问题的深入理解和解决问题的能力比较模糊,主要根据已知内容回答问题。

比如问它Fe-N4怎么调,o1能告诉你是根据电子状态来调的,但如果你问它怎么调的话,它就有点卡了。

虽然比起gpt4o来说废话少了点,但都无法针对具体问题给出太多建议,老版本废话连篇,没有细节,新版本则因为功能有限而无话可说。

_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

除了这两个之外,综合科学三门学科里肯定少不了生物学。

我们也咨询了清华大学生物专业的辛博士,他的问题是:“如何从质谱数据中区分赖氨酸残基的乳酸化和羧乙基化修饰?”

虽然没看懂,但是o1也给了很长的回答,就像论文综述一样,最后还附上了参考文献。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧__OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

但令人吃惊的是,当我们把这个答案交给辛博士后,他看完却发现不对劲,一看就是一个与丁真有关的问题。

并不是说AI的答案全都错了,而是AI在参考文献中编造了无稽之谈,而且这篇论文根本不存在!

虽然是剪辑了,但剪辑得并不彻底,总体来说,这位清华博士还是觉得比之前的AI强太多了,至少理解能力是肉眼可见的,剪辑也非常类似。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧__OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

不过不同方向的博士学位评价是不一样的,这可能也和o1本身的专业领域有关。

从官方公布的科学成绩来看,虽然gpt4o的生物成绩比化学、物理要高,但这次的o1就完全不一样了。

o1的物理成绩达到了92.8,远高于其他两门科目,这或许也是崔博士看好它的原因。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_

总体来说,说到超越专业博士生的水平,博士生们认为还需要一定的时间。

崔博士直言,真正的科研,大部分情况下还是要学者们自己动手,AI只能提供一个大方向,花钱搞这么细致的AI没什么意义。

他建议本科生选择这个AI,如果是硕士、博士阶段,AI的答案肯定达不到导师的标准,在组会上肯定会受到批评。

清华大学的辛博士也持同样的观点。且不说AI的幻听、捏造文献的问题,从专业性上讲,AI的答案只能糊弄其主修同行,也就是同一专业学科不同方向的人;但在辅修同行,也就是专门从事该方向研究的人眼里,AI的问题还是很明显的。

北京大学的K博士则讲得更加深入,他认为AI在认知方面只能说拥有硕士生的水平,只是拼凑起来的,无法产生什么创造性的成果,在创造力方面,AI远远不如硕士生或者博士生的水平,这也是AI需要解决的重要问题。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧__OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

在对医生的评价中,我们似乎能够抓住一个关键点:o1模型之所以相对更强,是因为它有更高维的认知和思维模式。

这也是o1这次更新的重点,我们在官网上找到了to with LLMs的文章,里面说他们主要用的是长思考链(CoT),而不是传统的提示链。

乍一看可能有点让人困惑,但简单来说,这个大模型改变了以前你问我我答的思维方式。

在之前的模型中,大模型的问答就像是下意识的给出答案,比如你问我天空是什么颜色,我会不假思索的回答蓝色,这其实是要求我已经知道这个知识点,然后直接给你答案。

但这个漫长的思考链相当于我不仅需要知道什么是蓝色,还要考虑到大气散射和光谱波长,推断出为什么它是蓝色。

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_

这就要求人工智能必须具备构建逻辑和推理、证明事物的能力。换句话说,它不仅需要有大脑,还需要使用大脑。

虽然Mind Chain的概念早在2022年就由谷歌提出,但这是第一次付诸实践。

在实际操作过程中,当你和o1模型对话的时候,除了得到答案之外,还可以选择展开,看看它在回答问题时的思维逻辑,它的思维是具体的,而不是黑箱的。

比如,我们以崔博士的问题“长距离纠缠光子分布中,有哪些方法可以克服白噪声?”为例,o1模型的思考过程如下:

_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

不过,就像它无法解决专业领域的问题一样,日常场景中的一些简单问题似乎也能难倒它。

拿9.11、9.8的经典例子来说,小红书网友@小水刚醒发现这东西“一增加难度就崩溃了……无限循环狂推Chain of Tales(CoT)”

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_

我们编辑部自己评审的时候也发现了这个问题,但是问为什么的时候,马上就意识到自己的推理有误,然后重新推理。

好好好,你不愧是医生,很会找茬儿啊?

OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_

经过一轮全面的测试后,我不得不承认它确实有了很大的改进。

从效果上来说,确实比上一代要好,而且长远的思考应用,对未来AI的发展是有益的。

但经过几位医生轮番鞭策,它的问题就显现出来了,在创造力等方面,它无法取代人类博士专家。

_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧_OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

不过,研究员诺姆·布朗透露,未来版本的o1将能够思考数小时、数天甚至数周。虽然这会花费更多金钱,但对于开发抗癌药物等任务来说,这是值得的。

另外我觉得GPT o1实现的思维链模型很有可能会引领全球大模型的方向,就像之前的架构、DiT架构一样。

所以,AGI之路并不近也不远,期待下一轮选手的登场。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2