推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

新加坡国立大学团队测试Claude操控电脑：可智能完成崩坏：星穹铁道手游日常任务

日期：2024-11-26 来源：网络整理作者：二手钢材网浏览：313 评论：0

核心提示：Claude操控电脑，究竟可以做到什么程度？除了更多测试场景外，论文还提出了一个开箱即用的自动GUI框架。研究团队还测试了很多日常办公场景下它的性能：

你能控制电脑多远？

新加坡国立大学团队对20多个场景进行了全面测试。最引人注目的是：AI可以自动玩手机游戏、完成日常任务！

米哈游的《崩坏：星穹铁道》被选为研究对象。你可以告诉它“帮我完成今天的模拟宇宙”，然后它会立即打开游戏菜单，找到星穹中的“金色花萼”。自动设置6个挑战时间：

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控__Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

你甚至可以开始自动战斗，等待战斗结束再退出。这组组合操作真是太流畅了……

_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

并且请注意，这不仅仅是像传统游戏外挂那样的机械操作，而是对游戏规则和目标的智能理解，并根据界面上的不同任务进行调整。

现在好了，人类只能在一旁干瞪眼了。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_

除了更多的测试场景之外，论文还提出了一个开箱即用的自动GUI框架。

_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

有网友看到视频后评论：以后上学的时候可以让他帮我做日常的事情。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控__Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

还可以自动完成很多办公任务

Use的潜力还远远没有被人类发掘——

研究团队还在多种日常办公场景中测试了其性能：

1.网页搜索

它可以顺利完成苹果官网下单的任务，并且可以轻松选择颜色配置和填写地址。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控__Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

2. 工作流程

该模型还成功完成了自动化任务，例如将歌曲添加到 Apple Music、编辑 Excel 数据以及在 App Store 上安装应用程序。

虽然界面设计和跳转逻辑较为复杂，但仍然能够智能地理解任务的最终目标。真是一个成熟又优秀的AI（高兴）！

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控__Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控__Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

3..办公生产力软件

此外，它还可以转发电子邮件、调整Word布局、设置背景设置、插入三角形形状等，这确实可以大大提高生产力（AI没用-1）。

_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_

_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_

4.还可以玩其他游戏

除了《崩坏：星轨》之外，该模型还可以自动玩《炉石传说》，包括创建和重命名牌组、使用英雄技能等等。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控__Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

使用API+自动化GUI框架

你可能会好奇，它像Use一样强大，怎么能自动完成任务呢？

我们看一下其背后的框架设计——

_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

具体来说，团队基于Use的API设计了一个自动化GUI框架，主要分为以下六个部分：

1.系统提示

系统的使用提示包括环境概述以及可用功能和参数的说明。用户可以写

块来调用这些功能，例如计算机交互、Bash Shell 命令和文件编辑工具。

_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控__Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

2. 状态观察

通过实时屏幕截图来观察环境，无需依赖元数据或 HTML。在每个时间步骤之后，模型将保留历史屏幕截图以帮助生成下一个操作。

3. 推理范式

Use采用推理-行动范式，观察环境来决定下一步行动。这种范例允许模型在高度动态的 GUI 环境中生成更可靠的操作。

4.工具使用

Use 提供了三种工具：计算机工具、文本编辑器工具和 Bash 工具，可以帮助模型与计算机交互并执行各种任务。

5.GUI操作空间

GUI操作空间内置了所有原始的鼠标和键盘操作，例如鼠标移动、单击、组合键、拖放和屏幕截图。该模型根据需要自行组合。

6. 历史视觉上下文维护

该模型保留每个时间步骤的历史屏幕截图，以协助动作生成过程。具体公式如下：

_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

性能测试

为了更广泛地测试Use和GUI框架结合的性能效果，团队还设计了详细的测试实验，包括

1. 数据收集：实验设计包括通过和 macOS 上的开箱即用平台进行评估。评估任务涵盖广泛的应用领域，包括网络搜索、工作流程、办公生产力软件和视频游戏。

2.样本选择：选取了20个任务，涵盖12个软件或网站，分为以下三个领域：网页搜索、工作流程、办公生产力和视频游戏。具体任务可参见下表：

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控__Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

3.参数配置：系统分辨率设置为（1366,768）和macOS（1344,756）。流程中还加入人工审核和评估，对流程进行监控和审核，确保任务的顺利完成。

虽然Use在前面的例子中表现得非常好，但是当网页或者软件页面过于复杂时，模型也存在一些失败的情况：

1、精细网页操作失败：福克斯订阅任务失败。错误的主要原因是模型没有正确导航到“”选项卡。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控__Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

2、办公软件失败：Word中更新简历模板和PPT中插入数字符号两项任务失败。错误原因是模型未能准确选择和定位文本字段。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_

_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控

但总体来说，使用已经很棒了，而且这个功能才刚刚发布，未来可以期待一下！

团队还公开了所有测试用例的具体信息。感兴趣的朋友可以点击项目链接查看更多新闻~

老师，以后我的PPT和Steam就交给你了（bushi）

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控_

参考：

标签： 文本标签识别

打赏

更多>同类资讯

0 条相关评论

• 践行契约精神，免费领取综合脚手架搭设施工合同	• 前言：我们生活离不开钢铁，中国是产钢大国，跟
• 20CrNiMo化学成分全解析：碳硅锰铬镍钼元素作用	• 欢迎钢材废料及再生资源回收行业朋友加入群交流
• 2024钢铁产业链高峰论坛：赵海龙谈数智化与金融	• 河北省18部门联合印发消费品以旧换新实施方案，
• 荣兴寄语：从航母梦到国产航母下水的感慨与历史	• 废钢回收及各类回收信息对接:价格、平台与合作
• 本周钢铁行业点评：集体断贷、大宗商品价格下跌	• 疫情恢复宏观刺激下黑色市场趋势止跌反弹分析

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

新加坡国立大学团队测试Claude操控电脑：可智能完成崩坏：星穹铁道手游日常任务

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司