大模型与人形机器人:人工智能与机器人技术的双向奔赴

   日期:2024-08-06     来源:网络整理    作者:二手钢材网    浏览:186    评论:0    
核心提示:2023年,是生成式AI的爆发之年,也被业内称为“机器人觉醒之年”,ChatGPT等生成式AI与人形机器人行业结合,开启了具身智能时代。但目前仅有大模型技术的创新,还不足以驱动具身智能发展。对具身智能来说,一个重要的挑战是模仿这种群体智能系统。

在GPT-4等大模型和前沿模型的火爆推动下,我们仿佛正在见证人工智能领域的一个新时代,人机交互变得比以往任何时候都更加顺畅、更加无缝。

从今年的世界人工智能大会,到世界移动通信大会,人形机器人几乎成了必备元素,走到哪里都会吸引大量人气,是当之无愧的“流量密码”。

《自然》网站报道称,人工智能与机器人技术的“联姻”或将是一场“双向竞赛”,将相互推动至新的高度。

_浪潮insight_浪潮im

AI技术大师

从符号主义到联结主义,智能体与现实世界的交互越来越受到重视。20世纪50年代达特茅斯会议后的一段时间内,人工智能的研究主要局限于符号处理范式。符号主义的局限性很快在实际应用中暴露出来,并推动了联结主义的发展,形成了如今在学术界和工业界流行的包括多层感知器、前馈神经网络、循环神经网络和深度神经网络在内的多种方法。

浪潮insight__浪潮im

这种用人工神经网络模拟认知过程的方法确实在适应性、泛化和学习方面取得了很大进步,但并没有真正解决智能体与现实物理世界的交互问题。让计算机像成年人一样下棋相对容易,但要让计算机拥有一岁小孩的感知和行动能力则相当困难,甚至不可能。

针对以上问题,“具身智能”(AI)概念应运而生。1950年,“计算机之父”阿兰·图灵在《与》一文的结尾设想了人工智能两种可能的发展路径:一条路径是专注于抽象计算所需的智能(比如下棋),另一条路径是给机器配备最好的传感器,让它们能与人类交流,像婴儿一样学习。这两条路径逐渐演变成今天的非具身智能和具身智能。

其中,具身智能是指基于物理躯体进行感知和行动的智能系统,通过智能躯体与环境的交互获取信息、理解问题、做出决策并实施动作,从而产生智能行为和适应能力。它囊括了人工智能领域几乎所有技术,包括计算机视觉、自然语言理解、认知与推理、博弈伦理、机器学习等,横跨多个学科和方向,是人工智能的缩影。

_浪潮insight_浪潮im

浪潮insight__浪潮im

2023年是生成式人工智能的爆发之年,也被业界称为“机器人觉醒之年”,生成式人工智能与人形机器人产业的结合,迎来了具身智能时代。

今年以来,具身智能领域多项关键技术取得突破,李飞飞团队发布具身智能新成果,能够对三维空间中的目标和环境障碍物进行分析,让现实世界中的机器人无需训练就能直接执行任务。

该系统的出现将大模型与机器人结合在一起,进一步提升了具身智能的环境交互能力,使其无需额外的数据和训练就能完成任务。这种深度的人机交互和理解,使具身智能更加贴近人类的认知和情感模式,有望实现更深层次的人机融合,也揭示了从具身智能到超级智能的路径。

2(RT-2)中,在训练过程中,模型同时学习视觉、语言和机器人行为三种数据,并将这些知识转化为机器人控制的通用指令。RT-2一方面吸收了视觉语言模型的语义推理、问题求解和视觉解释能力,另一方面又能从真实的机器人动作中实现具身化的任务推理,两方面互相促进。在自然语言输入后,模型的运算直接产生动作输出,让人通过纯语言命令就能优化机器人控制。

在ITF World 2023半导体大会上,英伟达创始人兼CEO黄仁勋表示,下一波人工智能将是具身智能,即能够理解、推理、与物理世界互动的智能系统。AI与机器人的融合有着很大的想象空间。特斯拉CEO马斯克在日前举行的2024年特斯拉股东大会上表示,人形机器人将是未来特斯拉长期价值的主要来源。他还认为,以具身智能机器人为代表的产品有望成为下一波AI浪潮,将成为产业主力,数量有望超越人类,预计达到100亿至200亿台。特斯拉的目标是年产10亿台,占据10%以上的市场份额。

从目前世界范围内具身智力的发展情况来看,大致可以分为实践学派、表现学派、学术学派三个流派。

实用主义者——以特斯拉、1X为代表的实用主义者看重商业化的可能性,希望“先让一部分人用上”,能接受前期在某些场景下只替代少量劳动力,设计初期就有明确的商业化目标,专注于快速降低成本、推动量产。特斯拉于2023年12月中旬发布第二代人形机器人,提升了行走速度,能完成抱鸡蛋等精细动作,给予市场更多信心。预计2024年试产,2025年量产,最终目标价格预计在2万美元/台以内。

_浪潮insight_浪潮im

以波士顿动力为代表的性能导向型公司,拥有30年与军方合作的经验,注重发掘现有人形机器人的运动潜力,较少关注成本。演示机具备完成后空翻、跑酷等高难度动作的能力,可能在未来战争中发挥一定作用,但成本过高影响了量产计划。该类型的公司有深海、太空等极端环境下的产品经验,与NASA合作开发经验较多。首款通用机器人演示机仅有上半身,计划2024年底实现商业化。

以李飞飞教授和谷歌团队为代表的学术流派,非常追求用大模型改造机器人,打造“ ”的基础模型,实现零样本或少样本学习,在更加复杂甚至陌生的环境中执行任务,实现类人机器人的智能化崛起。

在中国,人形机器人行业也被认为是下一个蓝海市场。根据《人形机器人行业研究报告》,全球人形机器人行业已步入黄金发展期,预计2026年中国人形机器人市场规模将突破百亿元,达到104.71亿元,2030年有望成长为千亿元市场,市场规模达1192.46亿元。

螺旋和锯齿形

在具身智能的漫漫长路和雪地上,不乏先行者。从简单的结构驱动到关节驱动,再到跑步、转弯、识别特定人脸等高度集成的系统,再到现在能够自主决策的高动态运动阶段,早稻田大学WABOT-1、本田ASIMO、波士顿动力Atlas、特斯拉、小米“铁大学”、优必选等代表作品都在不断突破技术的边界。

进入生成式人工智能时代后,大型语言模型(LLM)赋予了具身智能新的“大脑”,结合视觉语言模型(VLM)、视觉导航模型(VNM),推动了机器人在不确定环境下的适应能力,为应用端开启了前所未有的可能性。

但单靠大模型技术的创新并不足以推动具身智能的发展。香港大学机器人及自动化首席教授、新兴技术研究院院长席宁表示,计算机控制的机器人要解决三个问题:逻辑关系、特殊关系、时间关系。但现有的大型语言模型等方法只能回答一个维度的问题。

现在只是数据驱动的静态智能,未来是时空环境驱动的具身智能,智能载体不是今天的人工神经网络,而是类似大脑的脉冲神经网络。这需要多模态(文本、语音、图片、视觉、运动等)融合感知、认知、决策和行为生成能力,以及基于人工反馈的强化学习的完成和快速智能进化。在具身智能的基础上,还将衍生出多智能体协同感知、控制、决策的群体智能,从而实现更大范围的智能体协同交互。

浪潮insight__浪潮im

综上所述,具身智能在发展过程中仍然面临诸多挑战,这些挑战源于其发展过程的复杂性和需求的变化。

第一,要适应非结构​​化的现实环境。与传统受预设规则和模式驱动的人工智能系统不同,具身智能必须在充满复杂性和不可预测性的非结构化环境中立足。在这种环境中,信息的稀缺性和场景的多变性要求人工智能系统具备更先进、更灵活的计算能力,以适应环境的不断变化和不确定性。这不仅是一个数据处理问题,更是对人工智能系统感知能力和适应能力的综合考验。

其次,需要发展更先进的认知策略。自然界中,生物体通过视觉、听觉、触觉等多种感觉通路获取复杂的感知信息,并在大脑中进行有效的多模态信息融合。具身智能也需要模仿这种高效的多模态融合过程,以更全面地理解和适应其环境。这包括但不限于对三维空间中物体的精确识别和定位,以及对环境变化和内部联系的动态捕捉。

同时,具身智能还需要超越传统静态数据处理的计算模式,深入理解事物的动态变化和相互关系,这不仅涉及对时间和空间信息的处理,还涉及理解其他生物(特别是人类)的意图和行为动机,从而实现更加自然、智能的人机协作。

此外,缺乏新兴创新和突破也影响了具身智能的进化程度。生物群体能够展现出令人惊叹的集体智慧,主要得益于个体之间的协同作用。具身智能的一个重要挑战就是模仿这种群体智能系统。这意味着智能需要分散在多个实体之间,通过它们之间的协作,实现更高水平的认知和决策能力。生物群体表现出的自组织和自适应特性,使它们能够根据环境的变化和个体之间的差异进行自我调整。具身智能需要发展类似的机制,实现分工和动态任务分配,从而更灵活地应对各种情况。

然而,理解和模拟生物群体中涌现的现象,特别是在计算模型中,仍然是一个巨大的挑战。要开发符合生物学原理的计算模型,使具身智能真正实现群体间复杂的互动和创新,还有很长的路要走。

最后,具身智能在与现实环境交互并充分学习时,势必会采集和处理大量的数据。这引出了一个关键问题:如何在实时交互中保证这些数据的安全和隐私。保障数据安全和用户隐私是具身智能发展中不可忽视的重要方面。此外,具身智能在决策时还需要考虑伦理道德问题。因此,未来的发展不仅需要技术创新,还需要建立更加健全、完善的伦理准则,以指导具身智能在复杂情境中的行为决策,确保其行为符合道德原则和社会价值观。

具身智能的发展既是技术革新的过程,更是对人类认识、伦理道德和社会影响的深刻反思,相关研究在拓展科技边界的同时,也将深刻影响人类社会的方方面面。

从“实验室”到“应用领域”

具身智能的本质是从软件层面在人工智能与物理世界之间形成特定的交互窗口,人形机器人是最直接的表现形式。

其实具身智能可以看作是智能实体的大脑,其具体形态可以是多样的,人形机器人只是具身智能的一个子集,也可以是机器狗、自动驾驶汽车、大型工业设备,只要加入人工智能,都可以成为具身智能系统。

那么,为什么波士顿动力,以及更早的一些日本企业,特斯拉,AI,或是国内的一些厂商,都把研发的重点放在人形机器人上呢?

事实上,人形机器人的发展本质上就是不断升级控制维度和控制能力的过程。以日本早期的机器人为例,像ASIMO这样的模型,没有力矩控制功能,主要依靠位置控制,所以行走时步幅较小,多是在平地上进行试探性移动。

波士顿动力是最早使用力矩反馈进行局部运动控制的团队之一,在电机技术尚未成熟时,他们利用液压系统开发了 Altas 系列人形机器人。如今,随着电机性能的提升,得益于新能源汽车行业的发展和技术的溢出,AI 等人形机器人公司开始陆续推出产品,特斯拉也开始点燃市场。

有些场景,比如制造业,不一定需要人形,自动化设备可以体现具身智能,比如家庭场景,需要更适合人机交互的设备和机器,现有的很多设施也是按照人的需求设计的,所以人形更合适。

浪潮im_浪潮insight_

如今的具身智能商业模式,是以机器人作为自动化的节点,这种模式本质上是非常重的,无论从技术层面还是商业模式角度,都在逼迫所有机器人公司都必须做通用智能机器,才能实现产品化。

目前的这个大模型类似于哲学上的“缸中之脑”,是只输出语言或者多模态信息,独立于机器或者躯体而存在的理想化模型。未来它应该连接到什么样的躯体或者形态上,才能充分发挥它的普适性功能,是投资者和创业者目前正在探索的问题。

从产业角度来看,无论是体现型智能,还是通用智能机器人,其发展主要来源于两个产业的交叉融合。

一方面,在硬件领域,工业化、产业化推动了汽车、机器人等机械结构、电气化、传感器等的快速发展,也降低了硬件的成本,使其更加普及。

另一方面,在软件和数据领域,从早期的计算机、PC到软件,再到互联网,产生了海量的数据,加上强大的计算能力,才形成了今天的尺度规律和大模型。

在制造业中,具身智能正在通过高度自动化的机器人装配线优化生产流程;在医疗领域,具身智能应用于机器人辅助手术和患者护理;在服务业中,智能机器人正在改变客户服务的面貌。这些具体的应用场景不仅展示了具身智能的广泛适用性,也体现了其在提高效率、精度和用户体验方面的巨大潜力。

例如在交通领域,车路云一体化不仅可以降低单车的智能化成本,在具身智能的加持下,还可以赋予道路更加智能的路侧感知系统(MRS),通过融合激光雷达、毫米波雷达、摄像头等多类传感器的数据,通过深度神经网络处理,完成三维场景中的全景分割、物体检测、场景流估计、运动状态估计、车辆姿态校正、占用体素估计等任务,形成未来5秒内运动物体的运动轨迹、车辆的驾驶意图、车辆的决策信息以及车辆未来的规划轨迹信息,帮助智能网联汽车分析交通状况并提供全局最优路径规划,使其在复杂环境下更加安全、顺畅地运行。

智能革命已经开始,如同工业革命解放了生产力、电气革命解决了能源循环问题一样,是新生态的构建。未来,嵌入了具身智能的机器人、自动驾驶汽车、自动化设备,不仅是人类智能的延伸,更是通用人工智能诞生和发展的舞台,为超越人类智能的人工智能提供了理想的试验场和成长空间。或许这也是各大科技公司对具身智能寄予厚望的深层原因。

这表明一个更加智能、更加互联的未来即将到来。

本文来自微信公众号“极智”(ID:),经36氪授权发布。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2