OS Agents横空出世:多模态大语言模型如何实现钢铁侠中的贾维斯式智能助手

   日期:2025-01-03     来源:网络整理    作者:二手钢材网    浏览:346    评论:0    
核心提示:现在,这样的超级智能助手,终于变成现实了!Mariner,科技巨头们的野心都指向了同一个目标:打造真正意义上的操作系统智能助手Agents的硬核技术构造,还盘点了它们的评估方法和未来挑战。Assistant[3]等AI助手,已经展示了这一潜力。

在电影《钢铁侠》中,托尼·斯塔克的助手贾维斯可以帮助他控制各种系统,自动完成任务,这让无数观众羡慕不已。

现在,这样的超级智能助手终于成为现实了!

随着多模态大语言模型的爆炸式发展,操作系统应运而生。它们可以无缝控制电脑和手机,自动为你完成繁琐的任务。

从Use,到苹果,再到智浦AI,科技巨头的野心都指向同一个目标:打造真正的操作系统智能助手。

操作系统不再只是“助手”,它们正在改写“人机交互”的游戏规则。

近日,浙江大学联合OPPO、零壹万物等十家机构编写了一篇综述文章《OS: A on MLLM-based for Use》,不仅详细讲解了OS的硬核技术架构,还盘点了OS的硬核技术架构。他们的评估方法和未来的挑战。

科技行业下一个新趋势会是OS吗?

钢铁侠大学学什么专业_浙江钢铁侠科技有限公司_

OS商业与学术同时爆发

像这样的超级AI助手,一般称为OS,可以通过操作系统(OS)提供的环境和界面(如图形用户界面,GUI)自动完成电脑或手机等计算设备上的任务。各种任务。

操作系统具有改善全球数十亿用户生活的巨大潜力。想象一个世界,网上购物、预订旅行等日常活动都可以由这些智能代理无缝完成,这将极大地提高人们生活的效率和生产力。

过去,Siri [1]、[2] 和 [3] 等人工智能助手已经展示了这种潜力。然而,由于过去模型能力有限,这些产品只能执行有限的任务。

幸运的是,随着多模态大语言模型的不断发展,如[4]、GPT[5]、Grok[6]、Yi[7]和[8]系列模型(根据2024年12月22日排名)更新了 Arena LLM [9]),该领域正在开辟新的可能性。

(M)LLM 展示了令人印象深刻的功能,使操作系统能够更好地理解复杂的任务并在计算设备上执行它们。

而手机厂商最近在这一领域动作频繁,比如最近推出的Use[10]、苹果推出的Apple[11]、智普AI推出的[12]、智普AI推出的[13]等。

其中,Use利用[14]直接与用户计算机交互,可以实现无缝任务自动化。

与此同时,学术界提出了多种构建基于(M)LLM的操作系统的方法。

例如,OS-Atlas[15]提出了GUI基础模型,通过整合跨多个平台的GUI操作数据,显着提高了模型操作GUI的能力,提高了OOD任务的性能。

OS-[16]是一个操作系统框架,使代理能够在几乎没有监督的情况下自动执行各种计算机任务,并在各种应用程序中展示了其泛化和自我改进能力。

浙江钢铁侠科技有限公司_钢铁侠大学学什么专业_

浙江钢铁侠科技有限公司__钢铁侠大学学什么专业

操作系统的一些代表性商业产品和学术研究

本文是对该操作系统的全面回顾。

它首先阐明了操作系统的基础,探讨了其关键要素,包括环境、观察空间和行动空间,并概述了理解、规划和执行操作等核心功能。

接下来,回顾了构建操作系统的方法,重点关注操作系统特定领域的基本模型和代理框架的开发。

随后,本文详细回顾了评估协议和基准,展示了如何在各种任务中评估操作系统。

最后,文章讨论了当前的挑战,并指出了未来研究的潜在方向,包括安全和隐私、个性化和自我进化。

本文旨在梳理操作系统研究现状,为学术研究和产业发展提供帮助。

为了进一步推动该领域的创新,团队还维护着一个开源仓库,其中包含 250+ 篇关于 OS 的论文以及其他相关资源,并且仍在不断更新。 (链接在文末~)

钢铁侠大学学什么专业__浙江钢铁侠科技有限公司

操作系统基础知识:关键要素和核心能力

操作系统基础知识

关键要素(Key)

要实现操作系统对计算设备的通用控制,需要通过与操作系统提供的环境、输入输出接口进行交互来完成目标。

为了满足这种交互要求,现有操作系统依赖于三个关键要素:

核心能力()

操作系统有了这些关键要素之后,如何正确有效地与操作系统进行交互,就需要考验操作系统自身各方面的能力。

OS必须掌握的核心能力可以概括为以下三点:

操作系统构建

基本型(型号)

构建一个能够高效执行任务的操作系统,核心在于开发适配的基础模型。

_浙江钢铁侠科技有限公司_钢铁侠大学学什么专业

这些模型不仅需要理解复杂的屏幕界面,还要在多模态场景中执行任务。

以下是对基础模型的架构和训练策略的详细总结和总结:

钢铁侠大学学什么专业_浙江钢铁侠科技有限公司_

操作系统基础模型:架构、预训练、监督微调和强化学习

架构():我们将主要模型架构分为四类: 1.LLM:直接采用开源大语言模型架构,将结构化屏幕界面信息以文本形式输入到LLM中,使模型能够感知环境; 2. MLLMs:直接采用开源的多模态大语言模型架构,集成文本和视觉处理能力,提高GUI的理解能力,减少文本视觉信息带来的特征损失; 3. MLLMs:由LLM和视觉编码器桥接,具有更高的灵活性。可以根据任务需求选择和组合不同的语言模型和视觉模型; 4. MLLMs:对现有MLLM架构进行优化调整,解决特定场景的问题。挑战例如:添加额外的模块(高分辨率视觉编码器或图像分割模块等)以更详细地感知和理解屏幕界面细节。

预训练(Pre-):预训练为模型构建奠定基础,通过海量数据提高对屏幕界面的理解。数据来源包括公共数据集和合成数据集;预训练任务涵盖屏幕定位( )、屏幕理解( )和光学字符识别(OCR)。

监督微调(Fine-):监督微调使模型更适合GUI场景,是提高OS规划和执行能力的重要手段。例如,通过记录任务执行轨迹生成训练数据,或者使用HTML渲染屏幕界面细节,以提高模型对不同GUI的泛化能力。

强化学习 ( ):现阶段的强化学习已经实现了从使用 (M)LLM 作为特征提取到 (M)LLM 作为代理的范式转变,帮助操作系统在动态环境中交互并根据奖励不断优化决策反馈。该方法不仅提高了智能体的对齐能力,而且为视觉和多模态智能体提供了更强的泛化能力和任务适应性。

近期有关OS基本模型的论文总结如下:

钢铁侠大学学什么专业__浙江钢铁侠科技有限公司

操作系统基本模型近期研究工作综述

代理框架(Agent)

除了强大的基础模型之外,OS还需要搭配Agent框架来增强感知、规划、记忆和行动能力。

这些模块协同工作,使操作系统能够高效应对复杂的任务和环境。

以下是OS框架中四个关键模块的总结:

钢铁侠大学学什么专业_浙江钢铁侠科技有限公司_

操作系统框架:感知、规划、记忆和行动

():感知充当操作系统的“眼睛”,通过输入多模态数据(如屏幕截图、HTML文档)来观察环境。我们将感知细分为: 1.文本感知:将操作系统的状态转换为结构化文本描述,例如DOM树或HTML文件; 2.屏幕界面感知:使用视觉编码器来理解屏幕界面截图,并利用视觉定位(如按钮、菜单)和语义连接(如HTML标记)准确识别关键元素。

():规划作为操作系统的“大脑”,负责制定任务执行策略。可分为: 1、全局规划:一次性生成完整的计划并执行; 2.迭代规划:随着环境变化动态调整计划,使智能体能够适应实时更新的屏幕界面和任务要求。

():操作系统框架的“内存”部分有助于存储任务数据、操作历史记录和环境状态。内存分为三种: 1.内部内存( ):存储操作历史、屏幕截图、状态数据和动态环境信息,支持任务执行的上下文理解和轨迹优化。例如,使用屏幕截图来分析屏幕界面布局或根据历史操作生成决策; 2、外部记忆( ):提供长期的知识支持,例如通过调用外部工具(如API)或知识库获取领域背景知识,辅助复杂任务的决策; 3.特定记忆( ):重点关注特定任务的知识和用户需求,例如存储子任务分解方法、用户偏好或屏幕界面交互功能,提供针对性很强的操作支持。此外,我们还总结了各种内存优化策略。

钢铁侠大学学什么专业_浙江钢铁侠科技有限公司_

():我们将操作系统的动作范围定义为动作空间,其中包括操作系统交互的方式。我们将其细分为三类: 1、输入操作:输入是操作系统与数屏界面交互的基础。包括鼠标操作、触摸操作和键盘操作; 2、导航操作:使操作系统能够在目标平台上进行探索和移动,并获取执行任务所需的信息; 3、扩展操作:突破传统屏幕界面交互的限制,为智能实体提供更灵活的任务执行能力,如代码执行、API调用等。

近期关于OS框架的论文总结如下:

钢铁侠大学学什么专业_浙江钢铁侠科技有限公司_

OS框架近期研究工作总结

操作系统评估

在操作系统的开发中,科学评估起着关键作用,帮助开发人员衡量智能体在各种场景下的性能。

下表总结了最近有关操作系统评估基准的论文:

钢铁侠大学学什么专业__浙江钢铁侠科技有限公司

近期操作系统研究工作总结

评估协议()

操作系统代理评估的核心可以概括为两个关键问题:评估过程应该如何进行以及需要评估哪些方面。

下面的文章将围绕这两个问题来阐述操作系统代理的评估原则和指标。

评价依据( )

为了全面评估操作系统的性能,研究人员开发了涵盖不同平台、环境设置和任务类别的多个评估基准。

这些基准测试为衡量智能体的跨平台适应性和动态任务执行能力提供了科学依据。

考核平台( ):考核平台构建综合考核环境。不同的平台有独特的挑战和评估重点。我们将它们分为三大类:移动平台()、桌面平台()和网络平台(Web)。

基准设置():本节将OS评估环境分为静态()环境和交互式()环境两类,并将交互式环境进一步细分为模拟()环境和真实世界(Real-World)环境。静态环境适合基础任务的离线评估,而交互环境(尤其是现实环境)可以更全面地测试操作系统在复杂动态场景下的实际能力。现实环境强调泛化能力和动态适应性,这是未来评估的重要方向。

任务:为了全面评估操作系统的功能,当前的基准测试包含了各种专门任务,从系统级任务(例如安装和卸载应用程序)到日常应用程序任务(例如发送电子邮件和在线购物)。主要可分为以下三类: 1、GUI定位(GUI):评价操作系统将指令转换为屏幕界面操作的能力,即如何与操作系统中指定的可操作元素进行交互; 2. 信息处理( ):评估操作系统高效处理和汇总信息的能力,特别是在动态复杂的环境中,从大量数据中提取有用信息的能力; 3.代理任务(Tasks):评估OS的核心能力,例如计划和执行复杂任务的能力。此类任务为代理提供了在没有明确指导的情况下完成的目标或指令。

挑战与未来

本节讨论操作系统面临的主要挑战和未来的发展方向,重点讨论两个方面:安全和隐私(&)以及个性化和自我进化(&Self-)。

安全和隐私

钢铁侠大学学什么专业_浙江钢铁侠科技有限公司_

安全和隐私是操作系统开发中必须认真考虑的领域。

操作系统面临多种攻击媒介,包括间接提示注入攻击、恶意弹出窗口和对抗性命令生成,这可能导致系统执行错误操作或泄露敏感信息。

尽管目前已有适合LLM的安全框架,但针对OS的防御机制仍然不足。

目前的研究主要集中在设计专门应对注入攻击和后门攻击等特殊威胁的防御解决方案。迫切需要开发全面且可扩展的防御框架,以提高操作系统的整体安全性和可靠性。

为了评估操作系统在不同场景下的鲁棒性,还引入了一些代理安全基准来全面测试和提高系统的安全性能,例如ST-[17]和[18]。

个性化和自我进化

个性化操作系统需要根据用户偏好不断调整行为和功能

多模态大语言模型正在逐渐支持理解用户历史、动态适应用户需求的功能[19],在这个方向上取得了一定的进展。

让代理通过用户交互和任务执行不断学习和优化,从而提高个性化和性能。

未来,记忆机制将扩展到更复杂的形式,如音频、视频、传感器数据等,以提供更先进的预测能力和决策支持。

同时支持用户数据驱动的自我优化,提升用户体验。

总结

多模态大语言模型的发展为操作系统代理(OS)创造了新的机会,使实现高级AI助手的想法更接近现实。

本评论旨在概述操作系统的基础知识,包括其关键组件和功能。

此外,本文还回顾了构建操作系统的各种方法,特别关注特定领域的基本模型和代理框架。

在评估协议和基准测试中,团队成员仔细分析了各项评估指标,并从环境、设置和任务等方面对基准测试进行了分类。

展望未来,团队确定了需要持续研究和关注的挑战,例如安全和隐私、个性化和自我进化等,这些领域是进一步研究的重点。

本文总结了该领域的现状,并指出了未来工作的潜在方向,旨在为操作系统的持续发展做出贡献,增强其在学术界和工业界的应用价值和实际意义。

如有错误,欢迎大家批评指正。笔者也表示期待与同行朋友们交流讨论!

论文链接:

项目主页:

参考:

浙江钢铁侠科技有限公司__钢铁侠大学学什么专业

[1]Apple Inc. Siri - 苹果,2024 年。

[2] . - ,2024 年。

[3]。 ,2024 年。

[4]。 - .

[5]。家 - 。

[6]x人工智能。 x.ai。

[7]01.人工智能. 01.ai。

[8]。 。

[9] arena:人类向 llms 开放,2024 年。

[10]。 3.5 并使用 - , 2024a。

[11]苹果公司。苹果,2024 年。

[12]:用于图形用户界面。

[13]. ,2024 年。

[14]。型号 - ,2024b。

[15]Os-atlas:GUI 模型。

[16]Os-:与自-。

[17]St-:网络中的 A,2024 年。

[18]:2024年的。^新的。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2