英伟达CEO黄仁勋CES演讲:RTX 5090与Galbot G1机器人引领AI与硬件协同发展

   日期:2025-01-10     来源:网络整理    作者:二手钢材网    浏览:277    评论:0    
核心提示:作为全球首个完全基于仿真合成大数据进行预训练的具身大模型,GraspVLA展现出比OpenVLA、π0、RT-2、RDT等模型更强大的泛化能力和在真实场景中的实用潜力。作为全球首个完全基于仿真合成大数据进行预训练的具身大模型,GraspVLA展现出比OpenVLA、π0、RT-2、RDT等模型更强大的泛化能力和在真实场景中的实用潜力。如今,GraspVLA率先实现了在多种能力的泛化,开创了以仿真合成大数据为核心的具身大模型发展新范式。

他首先向世人展示了搭载全新架构的新一代卡RTX 5090,随后介绍了对人形机器人研发的期望和投入,最后以一幅令人印象深刻的画面结束——

“G1 是 现场唯一的轮式大型机器人,它慢慢地举起了 RTX 5090。”

_统计决策基于模型和基于数据_基于大数据的数据仓库

发布会结束后,黄仁勋首次前往银河环球所在展区,与机器人进行了实景互动。

一时间,数字智能与物理智能融合、AI基础设施与AI模型硬件协同发展、科技巨头与超级创投公司联手,释放出前所未有的科技活力。

全世界的目光都集中在,是什么让这位“AI教父”如此执着?为什么这家公司是唯一一家被寄予万亿级巨头厚望的公司?

具身智能无疑在当今的技术变革中发挥着核心作用,深刻影响着人类社会的发展和变革。

对于实体智能来说,“数据瓶颈”被业界公认为是亟待解决的最大挑战。一些团队认为实施和自动驾驶主要依靠真实的机器数据,而另一些团队则认为需要采用大规模视频数据学习策略。来自世界各地的研究团队持有不同的观点。

时至今日,国内外众多研发团队已经发布了数百万的实机数据。然而,对于真实机器数据应该采集到什么规模、多样性如何、机器人硬件迭代后如何跟进数据等问题,目前仍然没有明确的答案。

今天,星河将军联合北京大学、北京致远人工智能研究院(BAAI)、香港大学的研究人员,正式发布了全球首个端到端具身抓取基础模型。

作为全球首个完全基于模拟合成大数据预训练的体现大模型,其在真实场景中表现出比π0、RT-2、RDT等模型更强的泛化能力和实用潜力。

作为全球首个完全基于模拟合成大数据预训练的体现大模型,其在真实场景中表现出比π0、RT-2、RDT等模型更强的泛化能力和实用潜力。

伴随发布的还有团队总结的7个体现基础模型的泛化“黄金标准”,分别按照、、、进行分层。这些标准包括:光照泛化、干扰物泛化、平面位置泛化、高度泛化、背景泛化、物体类别泛化、闭环能力。

各公司此前发布的模型中,RDT初步展现了泛化背景和类内物体的能力,π0、GR-2等进一步展现了泛化干扰物和平面位置的能力。

今天,我们率先实现了多种能力的泛化,并为以模拟和合成大数据为核心的实体大模型的开发创造了新的范式。

VLA预训练可以推广吗?该团队给出了七项黄金标准

该团队表示,虽然近年来爆发的大规模体现VLA模型在泛化方面取得了一定的进展,但长期以来一直没有产品。原因是从实验室到实际工作场景,模型很难穿越各种环境。因素动态变化的多重检验。团队认为,我们不仅要关心任务是否能够顺利完成,更要关注任务能够成功完成的条件。

的研发团队向我们展示了该模型的以下泛化能力的综合评估:

1. 光照泛化

在 带来的大型模型作品演示中,我们看到模型可以在明亮、极暗甚至剧烈变化的光照条件下准确执行抓取任务:

统计决策基于模型和基于数据_基于大数据的数据仓库_

(2倍速)

在更极端的情况下,团队允许模型将目标物体从亮处移动到暗处,甚至几乎完全黑暗。大模型实时观察到目标物体的运动后,立即驱动机器人移动到移动的位置。抓取展示了大型模型在极端光照条件下的强大适应能力和执行能力。

统计决策基于模型和基于数据__基于大数据的数据仓库

(2倍速)

2. 背景概括

还展示了大模型在不同背景环境下的适应性,包括红色桌布、星空图案等场景。

_基于大数据的数据仓库_统计决策基于模型和基于数据

(桌面通用化,速度提高 3 倍)

发布的视频还指出,采用双视角作为输入,我们看到的视频图像对应于机器人正前方摄像头的视角。

当背景快速动态变化时,模型仍稳定执行任务,不受任何干扰,展示了大型模型对动态环境中背景变化的强大适应性。

_基于大数据的数据仓库_统计决策基于模型和基于数据

(背景墙泛化,3倍速度)

3. 平面位置概括

团队展示了在平坦表面上的任何位置抓取目标物体的能力,无论是在一堆物体的中间还是在餐盘上。

_基于大数据的数据仓库_统计决策基于模型和基于数据

(3倍速)

4. 高度通用化

在演示模型对高度的泛化能力时,银河将军团队要求银河将军团队抓取放置在不同高度的球并稳定地抓住它们:

_统计决策基于模型和基于数据_基于大数据的数据仓库

(3倍速)

5. 动态干扰泛化

工作时,将物体随意扔进工作空间进行干扰。即使击中了目标物体,也不会影响其顺利完成指令。

我们可以看到,在左上角的视频中,抓取目标即使在桌面上剧烈旋转,也能定位到;左下角的视频中,目标物体胡桃夹子至少被击飞了3次,而且每次都明显是立即进行的。调整。

统计决策基于模型和基于数据_基于大数据的数据仓库_

6.闭环动作输出,不同姿势不同抓取方式

抓取时,即使目标物体被人为移动,甚至从站立变为跌倒,也可以实时调整动作,完成抓取:

统计决策基于模型和基于数据_基于大数据的数据仓库_

7、新物体零样本抓取

在机器人领域,人们认识到使用模拟合成数据来训练模型存在差距问题。不过,银河将军强调,上述测试中使用的所有物体和环境均不涉及任何训练。

此外,即使是合成动作数据中从未出现过的类别,只需与互联网图像和文本数据联合预训练,也可以在抓取能力上进行准确识别和泛化:

统计决策基于模型和基于数据_基于大数据的数据仓库_

基于大数据的数据仓库__统计决策基于模型和基于数据

快速调整新产品需求?显示底座大模型的属性

经过上述七个黄金标准的测试,研究团队充分展示了全球首个端到端爬行大模型的零样本泛化能力。

众所周知,基础模型的另一个重要属性是能够通过少量样本快速契合新的用户需求。

研究团队表示,在机器人模型的实现过程中,不同的场景会有不同的特殊需求,因此他们采用了超市、工厂、家庭三个场景中的典型场景,进一步测试其快速适应和迁移能力。

1、迅速遵守规定,“举一反三”

团队以超市场景中从箱子中顺序取出货物为例:虽然可以轻松拾取指定的货物,但由于工作区中有多个相同的货物,模型不知道应该先拿哪一个:

基于大数据的数据仓库__统计决策基于模型和基于数据

(指定产品不按顺序抓取,2倍速)

为此,研究团队收集了少量的顺序捕获数据(不到一个人一天的远程操作),轻松理解了“顺序”的要求,充分展示了基础模型的快速学习能力:

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2