你能控制电脑多远?
新加坡国立大学团队对20多个场景进行了全面测试。最引人注目的是:AI可以自动玩手机游戏、完成日常任务!
米哈游的《崩坏:星穹铁道》被选为研究对象。你可以告诉它“帮我完成今天的模拟宇宙”,然后它会立即打开游戏菜单,找到星穹中的“金色花萼”。自动设置6个挑战时间:

你甚至可以开始自动战斗,等待战斗结束再退出。这组组合操作真是太流畅了……

并且请注意,这不仅仅是像传统游戏外挂那样的机械操作,而是对游戏规则和目标的智能理解,并根据界面上的不同任务进行调整。
现在好了,人类只能在一旁干瞪眼了。

除了更多的测试场景之外,论文还提出了一个开箱即用的自动GUI框架。

有网友看到视频后评论:以后上学的时候可以让他帮我做日常的事情。

还可以自动完成很多办公任务
Use的潜力还远远没有被人类发掘——
研究团队还在多种日常办公场景中测试了其性能:
1.网页搜索
它可以顺利完成苹果官网下单的任务,并且可以轻松选择颜色配置和填写地址。


2. 工作流程
该模型还成功完成了自动化任务,例如将歌曲添加到 Apple Music、编辑 Excel 数据以及在 App Store 上安装应用程序。
虽然界面设计和跳转逻辑较为复杂,但仍然能够智能地理解任务的最终目标。真是一个成熟又优秀的AI(高兴)!



3..办公生产力软件
此外,它还可以转发电子邮件、调整Word布局、设置背景设置、插入三角形形状等,这确实可以大大提高生产力(AI没用-1)。




4.还可以玩其他游戏
除了《崩坏:星轨》之外,该模型还可以自动玩《炉石传说》,包括创建和重命名牌组、使用英雄技能等等。

使用API+自动化GUI框架
你可能会好奇,它像Use一样强大,怎么能自动完成任务呢?
我们看一下其背后的框架设计——

具体来说,团队基于Use的API设计了一个自动化GUI框架,主要分为以下六个部分:
1.系统提示
系统的使用提示包括环境概述以及可用功能和参数的说明。用户可以写
块来调用这些功能,例如计算机交互、Bash Shell 命令和文件编辑工具。


2. 状态观察
通过实时屏幕截图来观察环境,无需依赖元数据或 HTML。在每个时间步骤之后,模型将保留历史屏幕截图以帮助生成下一个操作。
3. 推理范式
Use采用推理-行动范式,观察环境来决定下一步行动。这种范例允许模型在高度动态的 GUI 环境中生成更可靠的操作。
4.工具使用
Use 提供了三种工具:计算机工具、文本编辑器工具和 Bash 工具,可以帮助模型与计算机交互并执行各种任务。
5.GUI操作空间
GUI操作空间内置了所有原始的鼠标和键盘操作,例如鼠标移动、单击、组合键、拖放和屏幕截图。该模型根据需要自行组合。
6. 历史视觉上下文维护
该模型保留每个时间步骤的历史屏幕截图,以协助动作生成过程。具体公式如下:

性能测试
为了更广泛地测试Use和GUI框架结合的性能效果,团队还设计了详细的测试实验,包括
1. 数据收集:实验设计包括通过 和 macOS 上的开箱即用平台进行评估。评估任务涵盖广泛的应用领域,包括网络搜索、工作流程、办公生产力软件和视频游戏。
2.样本选择:选取了20个任务,涵盖12个软件或网站,分为以下三个领域:网页搜索、工作流程、办公生产力和视频游戏。具体任务可参见下表:

3.参数配置:系统分辨率设置为(1366,768)和macOS(1344,756)。流程中还加入人工审核和评估,对流程进行监控和审核,确保任务的顺利完成。
虽然Use在前面的例子中表现得非常好,但是当网页或者软件页面过于复杂时,模型也存在一些失败的情况:
1、精细网页操作失败:福克斯订阅任务失败。错误的主要原因是模型没有正确导航到“”选项卡。

2、办公软件失败:Word中更新简历模板和PPT中插入数字符号两项任务失败。错误原因是模型未能准确选择和定位文本字段。


但总体来说,使用已经很棒了,而且这个功能才刚刚发布,未来可以期待一下!
团队还公开了所有测试用例的具体信息。感兴趣的朋友可以点击项目链接查看更多新闻~
老师,以后我的PPT和Steam就交给你了(bushi)

参考:


