CAT4D系统使用扩散模型将单视图视频转换为多视图视图并将其构建成动态3D场景。用户可以从不同角度观看视频中的主题,就像身临其境一样。 IT之家附上演示图如下:


过去,实现类似的效果需要多个摄像机同时记录同一场景,但CAT4D简化了这个过程,只需要普通的视频素材。这项技术有望彻底改变游戏开发、电影制作和增强现实等领域。

在训练人工智能的过程中,谷歌团队发现现有数据并不多。为了解决这个问题,该团队将现实世界的镜头与计算机生成的内容混合在一起。训练数据包括静态场景的多视图图像、单视图视频和合成 4D 数据。通过扩散模型学习,在特定时刻从特定角度创建图像。


现阶段系统生成的3D场景比原始素材要短,但CAT4D的成像质量已经优于同类系统。 CAT4D技术具有广阔的应用前景。游戏开发人员可以使用它来创建虚拟环境,电影制作人和 AR 开发人员可以将其合并到他们的工作流程中。


