
它甚至可以教你如何实时在线玩游戏。
作者 |李源
2024年底,各大AI厂商似乎集体决定再做点什么。
在连续12天宣布更新后,新模型2.0于12月11日深夜发布(更新发布前)。
在多次发布精准定位之后,今晚我们卷土重来,发布了 2.0,它针对的是 的使用,这是一个尚未有明确公开布局的领域——此前有报道称,使用计算机的 将于明年推出。
代理功能,也称为智能体功能,通常是指人工智能在一定程度上感知环境、独立执行任务和做出决策的能力,即能够更加自动地完成任务的功能。
看来这次赌对了。凌晨两点的发布主要宣布了与苹果的合作,外界普遍预计此次合作与Agent的强大能力有关。不过,今晚的最终发布仍然主要集中在文本生成和视觉智能上,并没有代理相关的内容。
但同时发布了四个与Agent相关的功能:
Astra可以直接调用应用中的Lens和地图功能,帮助用户解决问题;
( ),浏览器的一个实验性功能,可以通过提示词直接帮助用户浏览网页、完成任务;
Jules是一个嵌入式编程代理,使用自然语言描述问题并直接生成可以合并到项目中的代码;

游戏代理可以实时解读屏幕,在你玩游戏时直接通过语音与你沟通,并给你AI提示。
虽然这次发布的功能仍属于未来类别,但仍然非常令人兴奋。看来我们已经可以洞察到特工真正到来的时代,人类生活的一个角落。
01
爆出新的Agent功能:查资料、写代码、教你玩游戏
新功能建立在新的 Model 2.0 功能之上。
与大多数大型模型选择的路线不同,最早的选择是使用原生多模态方法来训练模型——直到 GPT-4o 模型才成为原生多模态模型。
原生多模态模型将图像、文本、语音甚至视频等各种代码输入到一个模型中,以便在训练阶段进行学习。
这样,模型在理解一个“事物”后就可以更灵活地用来生成不同的模态。
此次2.0进一步升级了原生多模态能力。该模型目前具备原生图像生成能力、音频输出能力和原生工具应用能力。
工具应用能力与Agent能力高度相关。引言,此外,新的体验还来自于多模态推理、长上下文理解、复杂指令跟随和规划、组合函数调用、本地工具使用和延迟减少等方面的改进。
看看提议的新功能的演示:
这是本系列中最令我惊讶的演示。
主要原因可能是,相比于其他功能,浏览器是笔者每天都会使用的工具,也是对工作效率影响最大的工具。这个实验性功能似乎不需要太多额外的浏览器配置——只需要扩展。

我很明确地选择了一个生产力场景,并要求打开一个表单(演示中使用了Docs,不知道这是否与最终成功识别有关)。
表中有几个公司名称。演示者开启了这个实验功能,让自己记住这些公司的名字,并在网上搜索这些公司的电子邮件地址。 (同样,搜索使用搜索,不知道是否与最终演示成功有关。)
浏览器自行打开网页,点击各个公司的官网,找到邮箱地址后,自动记住邮箱地址,关闭网页,开始寻找下一个公司的邮箱地址。
整个过程中,用户可以在右栏输入提示词的位置,查看模型当前的思考情况,并随时停止自动运行。同时,模型只会在前台运行,不会在用户不可见的选项卡中运行。
虽然在前台运行看起来很浪费用户时间,但也保证了安全性。在这种情况下,它确实提高了生产力——逐个寻找邮箱确实是一项非常没有创意的任务。
Jules,用自然语言编写代码似乎又近了一步。
在演示中,用户输入了非常详细的编程问题提示,包括哪个文件遇到了什么问题以及想要进行哪些更改。 (提到 Jules 可以直接嵌入。)
Jules分析了问题并给出了三步编程解决方案。当用户点击同意后,模型开始自动编程并生成代码文件。这些代码可以一键合并到用户的原始代码中。
Game Agent 是最有趣的演示。
具体提到,2.0可以理解手机的屏幕共享和用户的声音,直接实现演示中的内容,无需额外的后期训练。
演示中,用户分享自己正在玩的手机屏幕,并通过语音与座席交流。游戏代理直接给出了下一个最佳策略。
其表示,目前正在与《部落冲突》、《Boom 》等游戏合作,帮助特工了解游戏规则。同时,Agent也会实时搜索互联网,了解游戏规则并给出最佳策略。
这个功能也可以说是爆炸性的。对于纯粹的策略游戏来说,这个插件有点太强大了——随着AI的进步,人脑对策略的理解可能无法与AI抗衡。换句话说,也许只有最好的大脑才能与人工智能竞争。

.0目前并未向所有用户开放,表明2.0目前正在向开发人员和可信测试人员开放。这意味着用户还需要一段时间才能真正使用上述Agent功能。但演示仍然令人兴奋。
未来2.0推出时,大概率不会首次推出上述Agent功能,而是首先集成到搜索功能中。
该公司此前一直在探索将人工智能引入其搜索功能。 10 月,谷歌宣布其搜索中的人工智能概览功能每月有 10 亿用户使用。未来的计划是将2.0的高级推理能力引入AI概述中,以处理更复杂的主题和多步骤问题,包括高级数学方程、多模态查询和编码。
此外,除了探索虚拟世界中Agent的能力外,我们还计划将2.0的空间推理能力应用到机器人领域,尝试让Agent在现实世界中提供帮助。
02
Flash定期更新
那么用户真正可以立即使用的模型是什么?
答案是2.0 Flash。
作为从大模型中提炼出来的小模型,2.0 Flash(对话优化版)将成为.
同时推出的还有一项名为“深度研究”的新功能,该功能利用先进的推理和长上下文功能作为研究助理来探索复杂的主题并编译报告,该功能现已在 中提供。
2.0 Flash的能力较上一代有显着提升,与上一代机型Pro版本的能力相当。

同时,作为2.0机型家族的一员,2.0 Flash还支持图像、视频、音频等多模态输入。 2.0 Flash现在还可以支持多模式输出,例如直接生成图像和文本混合的内容,以及原生生成。可控的多语言文本转语音 (TTS) 音频。它还提供用于本机调用、代码执行和第三方用户定义函数的工具。
03

Astra:准备好具有无限内存的模型吗?
这次我们还重点关注Astra,对其进行了以下改进:
· 对话更顺畅:Astra 现在可以进行多种语言和混合语言之间的对话,并更好地理解不同的口音和不常见的单词。
·新工具的使用:通过2.0,Astra可以使用、镜头和地图更好地发挥日常生活中的助手作用。
·更好的记忆力:我们增强了 Astra 的记忆力,同时确保您掌控自己的对话。它现在可以记住长达 10 分钟的对话,并可以回忆起您过去与其进行的更多对话,从而为您提供更好的个性化服务。
更低的延迟:使用新的流技术和本机音频理解功能,代理能够以接近人类对话的延迟来理解语言。
Astra 是一个具有前瞻性的眼镜项目。
自始至终,国内外众多企业都在重新探索眼镜作为新一代智能硬件的潜力。
这次的主要更新之一是内存功能。 CEO Demis 在接受网络采访时表示,在 1.5 时代,内部测试时,其上下文窗口已扩展到超过 1000 万个代币。目前,模型可以实现几乎无限的内存。
但代价就是速度。记忆越长,成本越高,搜索相关记忆的速度也越慢。然而,戴米斯认为,在相对较短的时间内,我们实际上将拥有无限长的上下文。
这对于真正想成为助理的人来说极其重要。戴米斯描述了未来的世界:“你在电脑上使用这个助手,然后你走出家门,戴上眼镜,或者使用你的手机,它总是在那里。它可以记住对话以及你想要做什么真正的个性化。我们人类无法记住一切,但 AIvu u 会记住一切,为您提供灵感和新计划。”
04

Agent时代来临了吗?
去年以来,有人指出Agent是AI发展的未来。
不过,近一年来,Agent这个词的使用已经比较安静,有时甚至通过改变概念来作为AI应用。
但在今年年底,我们终于开始看到相对有希望的进展。
首先是启动计算机使用的代理模式。
国内智浦AI也为用户推出了移动代理操作微信等应用程序的演示视频。
明年苹果与苹果合作的全貌仍不确定。很多人期望它能够让很多用户第一次在手机上体验到简单的Agent功能是如何帮助我们提高生产力的。
现在我们看到了浏览器Agent的推出以及Agent在手机上的使用演示。
Agent技术仍面临诸多挑战。人们会担心误操作带来的安全隐患,担心隐私,担心一系列风险。
但同时,对于普通用户来说,Agent是最“像AI”的技术。任务自动完成,就像变魔术一样。不需要任何技术背景,可以直接提高工作效率和用户体验。
Agent能力的提升也为新型智能硬件真正进入人们的生活奠定了基础——只有当发出语音命令,眼镜能够直接自动完成一些任务时,很多任务才会逐渐从手机转移到新型智能硬件上。硬件终端。
也许正如人工智能产品经理 Logan 今天早些时候所说的那样:未来是 Agent 的时代。


