聪明的东西
作者|依婷
编辑|鑫源
////2024/11/.mp4
当一个人在指定的微信群里发送100个总金额为2万元的红包时,他至少要完成以下步骤:打开微信,找到指定的微信群,找到并点击底部的红包菜单,进入红包数量、总额等一系列操作,但如果有代理的话,这只是一句话的事情,除了输入密码之外的其他操作都可以由代理完成。这样充满科技感的画面来自于智浦CEO张鹏的全新升级现场演示。
智东西11月29日报道,今天,在国内大型模型公司智普举办的Agent上,该公司公布了手机、浏览器、电脑上Agent项目的新进展:
在移动端,全新升级可以理解冗长复杂的指令,自主执行超过50步的移动操作,还可以跨App执行任务,比如在小红书App中独立搜索网友推荐的美食食材,然后投放潇湘超市的订单。 ;
浏览器方面,已上线智浦轻言网页端插件,支持数十个网站的任务,例如在名人微博上发表评论;
电脑端,GLM-PC已开放邀请测试。第一阶段将针对会议分身、文档处理、网页搜索与摘要、远程定时操作、隐形屏幕等5大场景进行内测。
张鹏认为,Agent可以看作是大模型通用操作系统(LLM-OS)的雏形。 “现阶段,相当于在人与应用之间增加了一个执行调度层,极大地改变了人与机器的交互形式。更重要的是,我们看到了LLM-OS的可能性。基于大模型的智能能力,未来有机会实现原生人机交互,将人机交互范式带入新阶段。”
1. GLM-手机:购买食材54步,比人类快5秒
今年10月,智浦正式发布Agent项目,并开始面向公众进行内测。一个月后的今天,手机上执行的任务复杂度和跨App执行都有了显着升级。
首先是超长任务方面。升级版支持更长的任务流程,可以理解超长、复杂的指令,实现连贯、自主的操作。例如,用户可以要求美团购买火锅食材,任务可以分解为54个步骤并成功完成。从发布会现场视频来看,这项任务的运算速度比人类快了5秒。

其次,在跨App操作方面,可以根据简单的人工指令跨多个App执行任务。例如,如果您需要帮助订购更便宜的外卖,您可以在多个外卖应用之间切换和搜索,比较同一产品的价格,然后选择更便宜的外卖来完成订单。张鹏表示,这一功能的实现源于强大的泛化能力和App思维链,真正成为用户和应用程序之间执行的调度层。
为了更好地贴合用户日常生活中的实际使用场景,还新增了“短密码”和“休闲模式”。
用户为长任务设置自定义短语后,点咖啡的操作真正可以浓缩为一句“点咖啡”,而无需告诉去哪家商店或购买哪种产品;休闲模式更像是将“喝哪种咖啡”的选择交给AI,由被动执行转为主动决策。用户可以等待打开“盲盒”。
目前已启动百万内测,将尽快作为面向C端用户的产品推出。智浦还宣布启动“10亿APP免费自动升级”计划。此外,支持核心场景和核心应用的标准API将于两周内在智普MAAS开放平台上线试用。
2. GLM-web:独立浏览网页,支持王心凌
浏览器中升级版的智浦轻言插件即日起上线,支持搜索、微博、知乎等数十个网站的无人驾驶。
现场,张鹏打开了智浦轻言插件,让他评论歌手兼演员王心凌的微博。随后他完成了以下操作:搜索并打开网页版微博,找到王心凌的账号并打开,并根据账号首页的第一页根据微博内容生成相关评论并发送评论。

3. GLM-PC:像人一样处理工作,支持远程和定时操作
继手机、浏览器之后,智普又在人与计算机之间添加了Agent-GLM-PC。该产品目前正处于内测阶段,预计明年一季度上市。
张鹏介绍,人类使用计算机的过程就是用眼睛看图形和文字,用大脑思考,然后用双手进行单击、双击、输入等操作。 GLM-PC 使用计算机的方式几乎与人类完全相同。 “理论上,只要是为人类设计的应用程序,GLM-PC学习后就可以执行。”这可能是一种系统级的、不依赖HTML或API的跨平台能力,具有更高的上层能力。能力的限制。
目前,GLM-PC具有以下功能:
1.会议分身:帮助用户预约和参加会议,并在会议结束后将会议摘要发送给指定方。
2.文档处理:支持文档下载、文档发送、文档理解和总结。
3、网页搜索和总结:在指定平台,如微信公众号、知乎、小红书等搜索指定关键词,完成阅读和总结。
4、远程定时操作:通过手机远程发送指令,GLM-PC可独立完成电脑操作;设置未来时间并在开机时定期执行任务。
5、隐形屏幕:用户工作时,GLM-PC可以在隐形屏幕上独立完成工作,不干扰电脑的正常使用。
张鹏还在现场演示了一个应用场景:用手机远程让GLM-PC找到电脑中的文件并发送给指定的微信群聊。当进行发送文件等关键操作时,GLM-PC会提示用户通过手机进行远程确认。
此次GLM-PC发布的背后是对2.0版本的迭代。从2023年4月开始,智普已经投入GLM-PC模型——多模态模型的研发一年半的时间。
GLM-PC技术负责人潘立航现场分享,.0具有更强的GUI(图形用户界面)视觉感知能力,可以看懂高清文本和UI界面;经过语言和视觉的联合训练,它的逻辑推理能力也得到了提高。改进后支持复杂计算机和多任务情况下的目标拆解、远近程规划、界面理解、任务执行、状态判断、像素级动作预测等——大模型正在默默学习人类操作并将它们转化为自己的原生行为。
张鹏坦言,由于计算机的复杂性以及几乎每个人都在计算机上完成复杂任务的事实,今天大模型的能力还远远没有真正取代人类在办公室工作。在当前版本的GLM-PC下,用户仍然需要输入非常精确的指令。
4. 从聊天到行动,看看LLM-OS的可能性
从自然语言到多模态,从聊天到行动,AI Agent正在带来人机交互的新方式。张鹏认为,Agent可以看作是大规模通用操作系统LLM-OS的雏形。而GLM-PC则是智普向AI智能操作系统迈进的尝试。
他说:“现阶段,相当于在人和应用之间增加了一个执行调度层,极大地改变了人机交互的形式。更重要的是,我们看到了LLM-OS的可能性,基于大模型的智能未来,从L1到L4甚至更高级的能力将有机会实现原生人机交互,将人机交互范式带入新阶段。”
略有不同的是,在的定义中,大模型的发展有五个阶段:L1语言能力、L2逻辑能力(多模态能力)、L3使用工具的能力、L4自学习能力、L5科学探索能力。法律。 ,已经初步具备了人类与现实物理世界交互的一些能力。 “Agent将极大提升L3使用工具的能力,同时开启L4自学习能力的探索。”张鹏说道。
“手机+AI将成为便携式个人智能助理,PC+AI将成为新的生产力工具,汽车+AI将让汽车成为人们智能的第三生活空间。”在智普COO张帆的期待中,随着设备端性能和算力的不断提升、适配AI原生设备的模型出现以及端云同源的协同架构,Agent不仅实现了用户体验的改变操作系统和应用程序,还扩展到各种类型的智能手机。在设备上,从手机到电脑,再到汽车、眼镜、家庭和各种边缘设备。
总结:AI参与工作决策,人机交互迎来新范式
近日,AI(主动人工智能)被列为2025年十大技术趋势之一,预计2028年至少有15%的日常工作决策将由AI自主完成,而这一数字在2019年为0。 2024年,从自然语言到任务执行,从单一场景到多模态、跨App协作,智浦和GLM-PC正在逐步揭示AI Agent改变未来生活的广阔空间。
随着技术不断突破,AI Agent或将成为大型模型应用于全场景的关键桥梁。其对人机交互形式的重新定义,标志着AI不再局限于屏幕上的角色,而是逐渐朝着智能助手、生产力伙伴乃至智能系统核心的方向发展,对人类社会产生着实际影响。人类真实的物理世界。
基于大模型的AI Agent或将加速人类进入真正的AI原生生态时代。


