AIxiv专栏:机器之心发布学术技术内容,促进全球学术交流与传播

   日期:2024-12-16     来源:网络整理    作者:二手钢材网    浏览:215    评论:0    
核心提示:人工智能技术正以前所未有的速度改变着我们对世界的认知与构建方式。在重建与理解物理场景方面迈入全新阶段。DriveRestorer,需要构建驾驶视频修复数据集。让其具备视频修复能力,再通过渐进式修复方案进一步提升了大范围视角变化时的渲染效果。

人工智能技术正在以前所未有的速度改变我们理解和构建世界的方式。近日,李飞飞教授团队通过单张图片生成三维物理世界的研究,再次向世人展示了空间智能技术的巨大潜力。

从单个图像生成三维世界不仅可以让人们交互式地探索静态图像,也标志着人工智能对物理场景的重建和理解进入了一个新阶段。

近日,集集科技联合北京大学、理想汽车、中科院自动化研究所联合启动了自由视角重构+自动驾驶场景生成。正如李飞飞及其团队在“空间智能”模型中所展现的创新一样,只需单一视角的视频输入,即可通过同步重建+生成,构建出真实的4D世界,实现一定范围内的高精度翻译。 6米首次渲染推动了这一领域从静态到动态、从单点到通用的转变。

_arcgis模型构建器视频_自由高达和强袭自由模型

简介和方法概述

闭环仿真是实现大规模端到端自动驾驶的关键步骤,而场景重构是闭环仿真的重要步骤。现有的驾驶场景重建技术,如NeRF、3DGS等,受到训练数据分布的限制,只能有效重建相似的驾驶环境。这些方法在处理复杂的驾驶操作(例如变道、加速或减速)时,尤其是面对摄像机角度的较大变化时,重建结果往往并不令人满意。

arcgis模型构建器视频__自由高达和强袭自由模型

集集科技主导的工作通过使用预训练的世界模型来扩展相机视角,在一定程度上缓解了这些问题,但在大范围视场变化的渲染上仍然存在局限性。相比之下,它通过训练世界模型来减少传统 3D 重建算法中的伪影,并引入渐进式修复策略以确保大相机运动下的高质量渲染。

如下图所示,与 和 相比,在大范围相机运动下表现出明显更好的渲染质量,不仅提高了驾驶前景(如车辆)和背景(如车道线)的时空一致性,同时也大大增强了动态驾驶场景下闭环仿真的准确性和可靠性,为端到端自动驾驶系统的开发和测试提供了更加真实可靠的环境。

自由高达和强袭自由模型_arcgis模型构建器视频_

整体框架如下图所示。首先,使用场景重建等传统方法,然后采样并渲染新的轨迹。为了消除渲染视频中的伪影和缺陷,创新性地使用视频生成世界模型进行视频修复,然后将这些恢复的视频与原始视频一起使用来优化重建模型。还提出了渐进式数据更新策略,从小位移渲染开始,逐步扩展到大规模渲染。这个迭代过程将持续下去,直到重建模型收敛。

_自由高达和强袭自由模型_arcgis模型构建器视频

为了进行训练,需要构建一个驾驶视频修复数据集。施工流程如左下图所示。本文使用原始轨迹的GT视频来训练欠拟合的3DGS模型,并在3DGS训练过程中渲染低质量的视频。这些低质量视频与相应的 GT 视频配对,形成修复数据集。在训练过程中,还使用掩模来让网络更多地关注天空和远处的区域。右下图显示了修复后的数据集对的可视化。

arcgis模型构建器视频_自由高达和强袭自由模型_

自由高达和强袭自由模型__arcgis模型构建器视频

训练完成后,可以修复低质量的视频,如下视频所示。左下角是修复前的视频,右下角是修复后的视频。

_自由高达和强袭自由模型_arcgis模型构建器视频

视频链接:

此外,还提出了渐进式修复策略。算法流程图如下所示。通过逐渐扩大渲染视角范围来逐步更新训练数据,以提高大规模相机移动时的渲染质量。

自由高达和强袭自由模型__arcgis模型构建器视频

实验结果

在实验中,如下视频所示,可以看出,当前最先进的3D重建算法在相机大范围(例如平移6米)改变视角时,渲染质量较差。车道线、天空、车辆都会变得模糊,甚至出现“重影”现象。可以改善复杂变道场景下的视频渲染效果,不仅消除“重影”,还能提高交通元素的渲染质量,使车辆和车道线更加清晰。

_自由高达和强袭自由模型_arcgis模型构建器视频

arcgis模型构建器视频_自由高达和强袭自由模型_

_自由高达和强袭自由模型_arcgis模型构建器视频

视频链接:

arcgis模型构建器视频_自由高达和强袭自由模型_

此外,它还可以实现多种自由视角渲染操作,例如Z形漂移、跨镜面移动等渲染操作。

_自由高达和强袭自由模型_arcgis模型构建器视频

自由高达和强袭自由模型_arcgis模型构建器视频_

视频链接:

本文在定量实验中证明,在大规模摄像机运动渲染(如跨越3米、跨越6米、变道)等场景下,传统3D重建算法的性能可以明显超越,尤其是提高了车辆性能和车道线渲染的时空一致性。

arcgis模型构建器视频__自由高达和强袭自由模型

arcgis模型构建器视频__自由高达和强袭自由模型

不仅如此,与最近的方案相比,所提出的渐进修复方案可以显着提高大范围相机运动下的渲染性能,比较结果如下所示。

_自由高达和强袭自由模型_arcgis模型构建器视频

此外,本文还通过用户研究证明该渲染效果更受用户青睐,并获得了95%以上的投票率。

arcgis模型构建器视频_自由高达和强袭自由模型_

总结

_自由高达和强袭自由模型_arcgis模型构建器视频

这项工作是优秀科技研究团队-2和.之前工作的延续。

这是世界上第一个用于真实驾驶场景的模型。可根据不同控制条件生成自动驾驶周边视觉视频,有效提升纯电动汽车感知性能; -2 在此基础上引入大语言模型,生成用户自定义的驾驶数据,进一步提升长尾和案例场景的数据生成能力。针对端到端自动驾驶和闭环仿真中场景重构的迫切需求,利用串联工作的能力生成新的轨迹视频(如变道、加速和减速),从而大大提高了各种4DGS算法的重建效果。

它训练World Model-2为其配备视频修复能力,然后使用渐进式修复方案进一步改善视角大范围变化时的渲染效果。

团队介绍

本论文牵头完成单位为集集科技,一家空间智能公司,致力于将视频生成升级为4D世界模型,赋予AI大模型对4D空间的理解、生成、常识和推理能力,实现4D空间交互和行动,迈向通用空间智能。通用空间智能对于影视游戏、元宇宙等虚拟空间的内容创作,以及自动驾驶、具身智能等物理空间的数据生成和认知推理能力具有巨大的价值和作用。集集科技是国内第一家开始探索和布局世界模型和空间智能方向的公司。无论是在物理空间还是虚拟空间,都取得了重大的技术和商业进展,并得到了业界的广泛认可。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2