近日,李飞飞团队提出了一种“数字表弟”新方法,可以同时降低实模生成成本,提高学习的普适性。

项目主页:
论文地址:
目前,该论文已被接受。
你可能会问,什么是“数字表弟”,它有什么用?
让我们将其与数字孪生进行比较。

数字孪生确实可以准确地对场景进行建模,但生成它们的成本太高,而且不提供泛化能力。
另一方面,数字表兄弟并不直接对现实世界的对应物进行建模,但仍然能够捕获类似的几何和语义功能。

通过这种方式,它显着降低了生成类似虚拟环境的成本,同时通过提供类似于训练场景的分布来提高从模拟到真实域的传输的鲁棒性。
合著者戴表示,既然有免费的“数字孪生”,为什么还要费力手工设计数字孪生呢?
令人惊奇的是,“数字表弟”可以实现这两个目标——

只需拍张照片即可完成
模拟数据问题:与真实环境相差太大
现实世界中训练机器人存在策略不安全、成本高、难以扩展等问题;相比之下,模拟数据是一种廉价且可能无限的训练数据来源。
然而,模拟数据有一个难以忽视的问题——它与真实环境之间的语义和物理差异。
这些差异可以通过数字孪生训练来最小化,但数字孪生作为真实场景的虚拟复制品,成本也很高,并且无法跨领域推广。
为了解决这些局限性,本文提出了“数字表兄弟”的概念()。
“数字表兄弟”是一种虚拟资产或场景,与数字孪生不同,它不会明确模拟现实世界的对应物,但仍表现出类似的几何和语义功能。

因此,数字孪生不仅具有数字孪生的优点,还可以弥补现实世界数据的缺点,同时降低生成相似虚拟环境的成本,更好地促进跨领域泛化。
具体来说,论文介绍了一种自动创建数字表亲(ACDC)的新方法,并提出了一种完全自动化、从真实到模拟到现实生活的过程,用于生成交互场景和训练策略。
实验结果发现,ACDC生成的数字表弟场景能够保留几何和语义功能,训练后的策略优于数字孪生(90% vs. 25%),并且可以通过零样本直接部署在原始场景中学习。
方法概述
与数字孪生不同,数字孪生并不要求在每个微小细节上重新创建给定场景,而是专注于保留更高级别的细节,例如空间关系和语义。
ACDC 是一个完全自动化的端到端流程,用于从单个 RGB 图像生成完全交互式的模拟场景,由三个连续步骤组成:

信息提取:首先,从输入的RGB图像中提取对象信息。
数字表亲匹配:利用第一步提取的信息,结合预先准备的3D模型资产数据集,为每个检测到的物体匹配对应的数字表亲。
场景生成:选定的数字兄弟经过后处理并编译在一起,以生成物理上健全且完全交互式的模拟场景。
通过这三个步骤,ACDC可以自动创建与输入图像语义相似但不相同的虚拟场景,为机器人策略训练提供多样化的环境。

策略学习
一旦构建了一组数字表兄弟,就可以在这些环境中训练机器人策略。
虽然该方法适用于多种训练范式,例如强化学习或模仿学习,但本文选择重点关注脚本演示的模仿学习( ),因为该范式不需要人类演示,更适合完全自主的 ACDC过程。匹配。
为了在仿真环境中自动化采集演示,作者首先实现了一套基于样本的技能,包括Open、Close、Pick和Place。
虽然技能类型数量仍然有限,但足以收集各种日常任务的演示,例如物体重新布置和家具铰接。
实验
通过实验,团队回答了以下研究问题:
Q1:ACDC能否生成高质量的数字表兄弟场景?给定单个 RGB 图像,ACDC 能否捕获原始场景中固有的高级语义和空间细节?
Q2:在原始环境设置上评估时,在数字孪生上训练的策略能否与数字孪生的性能相匹配?
Q3:在分布外设置上进行评估时,在数字表兄弟上训练的策略是否表现出更强的鲁棒性?

Q4:在 上训练的策略能否实现零样本策略迁移?
通过 ACDC 进行场景重建
首先,团队需要演示的最重要的问题是,ACDC能否生成高质量的数字表亲场景?
从表中的数据来看,结果非常令人满意。
以下是 sim-to-sim 场景中 ABCD 场景重建的定量和定性评估。

ACDC在场景重建中的定量和定性评价
评价指标包括:
以下是ACDC真实场景到模拟场景的重建结果。
在给定的场景中,会显示多个数字表兄弟。

对 ACDC 真实到模拟场景重建结果的定性评估,显示为给定场景生成的多个数字表兄弟
基于这些结果,研究人员肯定可以回答Q1——
ACDC 确实能够保留输入场景的语义和空间细节,从单个 RGB 图像生成现实世界对象的数字表兄弟,这些图像可以精确定位和缩放以匹配原始场景。
策略学习
这部分实验主要是回答上述研究中的Q2和Q3。分析了ACDC训练策略在“开门”、“打开抽屉”和“收起碗”三个任务上的能力。每个任务都与数字相关。比较双胞胎设置。

不同设置下的总体成功率如下所示。
研究发现,针对数字孪生模型训练的策略通常与数字孪生模型的设置相匹配甚至优于数字孪生模型。
作者假设,由于 的策略是根据来自不同环境设置的数据进行训练的,因此它可以覆盖广泛的状态空间,从而很好地推广到原始的数字孪生设置。

然而,在另一个极端,针对所有可行资产(All)进行领域训练的策略比数字孪生要差得多,这表明朴素域随机化并不总是有用。

另外,随着DINO嵌入距离的增加,即评估设置与原始设置的差异逐渐增大,数字孪生策略的性能通常成比例且显着下降,但数字孪生策略的整体性能更优。稳定,证明了分布之外的设置的鲁棒性。
策略学习
然后,研究人员对数字孪生和数字表兄弟策略进行了零样本现实世界评估。
任务是打开宜家橱柜的门。

评价指标是成功率。
结果表明,模拟结果平均超过50次试验,实际结果平均超过20次试验。

情景生成和政策学习
无论是数字孪生还是数字孪生,最终的目的都是在真实环境中比较性能。
因此,在实验结束时,团队在完全真实(野外)的厨房场景中端到端测试了完整的 ACDC 管道和自动化策略学习框架。
经过 的专门模拟训练,机器人可以成功打开厨房橱柜,展示了ACDC方法转移到真实环境的有效性。
以下演示展示了全自动数字表兄弟生成过程。







零样本策略迁移实验表明,仅从上面生成的四个数字表兄弟中训练的模拟策略可以直接迁移到相应的真实厨房场景。


根据这些结果,研究人员肯定可以回答Q2、Q3和Q4——
使用数字孪生训练的策略显示出与数字孪生训练的策略相当的分布内性能,以及更强的分布外鲁棒性,并且可以实现从模拟到现实的零样本策略转移。
失败案例
尽管ACDC方法表现出整体优越的性能,但研究团队在实验中也观察到了一些失败的案例。例如,在打开柜子的任务中,机器人未能完全移动到把手的位置——

或者搬动时错过把手——

即使你正确找到了手柄的位置,你的手也可能会滑倒——

可以看出,ACDC经常在以下情况下陷入困境:
一个。高频深度信息
b.闭塞
c.语义类别差异
d.缺乏相应类别的资产
e.除“在顶部”之外的对象关系
前三个限制与 ACDC 参数化方式直接相关。
例如,对于(a),由于ACDC依赖于相对准确的深度估计来计算预测的对象3D边界框,因此不准确的深度图可能导致ACDC对对象模型的相应较差的估计。
原生深度传感器可能难以在物体边界附近产生准确的读数,因为深度图在这些区域可能不连续。当对象有许多精细边界(例如植物和栅栏)时,这个问题会变得更加复杂。
此外,由于研究人员依赖现成的基础模型(-v2)来预测合成深度图,因此他们还继承了模型本身的一系列局限性,例如对特殊物体的预测效果不佳或在不利的视觉下状况。
综上所述
最终,研究人员得出以下结论。
ACDC 是一个全自动管道,可以快速生成与单个真实世界 RGB 图像相对应的完全交互式数字表兄弟场景。

研究发现:
1. 稳健性
在这些数字孪生设置上训练的政策比在数字孪生上训练的政策表现出更强的鲁棒性。

为了进一步检查数字表兄弟对朴素域随机化的相对影响,我们针对其他基线重新运行了该任务的实验。
2、性能对比
域内性能:针对数字孪生训练的策略与针对数字孪生训练的策略相当。
域外泛化: 训练的策略表现出优越的域外泛化能力。
3. 零样本学习
训练的策略可以实现从模拟到现实的零样本策略迁移。
作者简介

戴先生毕业于香港科技大学,获得计算机科学和数学学士学位。他目前正在斯坦福大学攻读硕士学位。隶属于斯坦福SVL实验室(及Lab)和PAIR研究组(AI & Group),导师为李飞飞。

他的长期愿景是将人类对现实世界环境的理解融入到机器人算法中,使用数据驱动的方法帮助人们完成日常任务;最近的研究重点是开发范式以实现稳健的操纵政策学习()。
黄

黄目前正在斯坦福大学攻读机械工程博士学位。他的导师是李飞飞,也在SVL 和PAIR 组工作。
此前,他获得了斯坦福大学硕士学位和加州大学圣地亚哥分校学士学位。

他致力于利用仿真技术拓展机器人操作能力,目标是推动日常通用机器人的发展,改善我们的日常生活。
参考:
本文来自微信公众号“新智元”,编辑:36氪,授权发布。


