推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一，网友：怕了怕了

日期：2024-11-15 来源：网络整理作者：二手钢材网浏览：163 评论：0

核心提示：谷歌新版Gemini超越o1，强势登顶竞技场总榜第一！说好的谷歌正在遭遇瓶颈呢？怕了怕了，或许，只有OpenAI立即发布满血版o1才能与之一战了？1114）虽说相较于谷歌上一版本有所改进，但仍然未能挤进前三。整体看下来，对于谷歌这次的反超，大家也感到十分意外。

经过6000+网友的匿名投票，他不仅数学成绩追平了学霸O1，还在其他五个项目上获得了第一名。

谷歌75+_谷歌20%_

新模型被称为（Exp 1114）。结果一公布，连CEO皮查伊都亲自赶到站台。

谷歌20%__谷歌75+

Arena官方也第一时间公布了这个好消息，并向谷歌表示祝贺：

祝贺您达到这一非凡的里程碑！

谷歌20%__谷歌75+

这太尴尬了！承诺的谷歌是否遇到了瓶颈？没想到他的反手竟然是王炸。

恐怕，或许，只有立即推出满血版O1才能与他一战吧？

谷歌75+__谷歌20%

目前，新模型可以在 AI上体验，官方计划未来提供API。

谷歌20%_谷歌75+_

网友们也纷纷猜测这是否就是传说中的2——

获得7项第一，数学与O1不相上下

_谷歌75+_谷歌20%

一夜之间，竞技场Imsys排名再次刷新：

从整体榜单来看，谷歌新模型（Exp 1114）的得分提升了40+，挤掉了此前一直霸占榜单的模型（包括o1-、GPT-4o）。

谷歌75+_谷歌20%_

而如果正面1v1遭遇敌人，New Look似乎有一半甚至更多的获胜概率。

整体胜率热图显示，（Exp 1114）对4o的胜率是50%，对o1的胜率是56%，对-3.5的胜率是62%。

谷歌75+_谷歌20%_

同时，（Exp 1114）个人项目也非常出色，一举夺得6个第一名，包括：

复杂提示（硬）：模型处理复杂或困难提示的能力；

数学；

创意写作；

指令遵从性：评估模型遵循给定指令的能力；

长查询处理（Query）：衡量模型处理较长查询的能力；

Multi-Turn：模型在多轮对话中保持上下文连贯性的能力；

_谷歌75+_谷歌20%

_谷歌20%_谷歌75+

最大的亮点是（Exp 1114）在数学能力上与o1模型不相上下。

要知道，按照官方的说法，o1无需特殊训练就可以直接获得数学奥林匹克金牌，甚至可以在博士级科学问答环节超越人类专家。

谷歌20%__谷歌75+

但遗憾的是，对于编写代码这一重要功能（Exp 1114），虽然相比之前的版本有所改进，但依然没能进入前三。（o1-mini/仍然领先）

谷歌20%__谷歌75+

另外，在风格的掌控下，-Exp-1114也无缘前三，甚至还不如自家的-1.5-pro。（排在o1、4o-之后）

解释一下，风格控制（Style）是今年江湖推出的新功能，旨在确保分数反映模型真正解决问题的能力，而不是使用漂亮的格式并增加答案的长度。

谷歌20%__谷歌75+

然而，也有意想不到的惊喜。这次-Exp-1114在视觉能力上获得了第一名，超越了GPT-4o。

谷歌20%_谷歌75+_

总体来说，大家对谷歌这次的反超感到非常意外。

_谷歌20%_谷歌75+

谷歌20%_谷歌75+_

谷歌75+__谷歌20%

谷歌20%_谷歌75+_

目前，-Exp-1114可以在 AI上体验，官方计划未来提供API。

谷歌20%_谷歌75+_

_谷歌20%_谷歌75+

这不，不少网友已经开始测试了，但似乎争议颇多——

网友们反应不一

首先总结一下，通过网友测试，目前已知有关Exp-1114的信息如下：

有 32k 上下文窗口

模型答案知识的截止日期是2023年4月，但答案结果会有所不同。

添加了思维链

其中32k上下文被大家诟病。有人直言，与200万上下文窗口的1.5相比，这里不升反降！

谷歌20%__谷歌75+

或许是感受到了大家的不满， AI 负责人赶紧出面平息事情：快更新了！快点更新吧！

谷歌75+__谷歌20%

安抚了大家的情绪后，大家终于说出了自己的看法。

通过其中一个家伙的观察，-Exp-1114这次也使用了思维链，在回答的时候能够像人类一样一步步思考。

谷歌20%__谷歌75+

而且，他数学真的很好？

-Exp-1114 正确回答了 2024 年美国数学奥林匹克预选赛 II 的第 1-8 题。

谷歌75+__谷歌20%

即使在相对薄弱的编码领域，也有人第一次尝试就成功了。

谷歌75+__谷歌20%

然而，翻盘总是不可避免的。

有人在基准测试中问了一道物理题，结果是Exp-1114虽然有思维链的加持，但依然回答错误。

谷歌75+__谷歌20%

即使是比较数字和计算草莓中“r”的陈词滥调仍然失败了。

谷歌75+__谷歌20%

更搞笑的是，有人问-Exp-1114“你叫什么名字？”

结果得到了答复（doge）。

_谷歌20%_谷歌75+

事实上，大家一直在猜测Exp-1114是否会是计划更新的传奇2。

谷歌75+__谷歌20%

谷歌75+_谷歌20%_

但根据实测，相当一部分网友站出来表示否认。

毕竟看起来连老版本1.5 Pro存在的问题都解决不了。

_谷歌75+_谷歌20%

甚至有人声称，这是谷歌推迟发布更大模型（即2）的策略，先做一个残差版本供大家玩，这样他们就不会急于更新。

谷歌20%_谷歌75+_

结合CEO皮柴放烟雾弹的做法，似乎有些道理（doge）！

标签： 9:a:5:9:9:5:3:c:3:0:5:f:e:2:9:2:7:b:9:4:4:f:1:2:e:3:a:b:d:e:0:c d:c:0:c:a:7:4:3:c:7:f:7:0:e:0:d:c:

打赏

更多>同类资讯

0 条相关评论

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

谷歌新版 Gemini 超越 o1 登顶竞技场总榜第一，网友：怕了怕了

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司