郑克军编辑
亮点:
2024年12月4日,谷歌发布Genie 2,实现了从静态照片到交互式3D场景的转换。虽然只能持续几十秒,但细节程度和交互流畅度却达到了新的高度。
目前构建数字世界有3条路线:Sora追求视觉真实性、的Genie 2注重实时交互、World Labs注重空间精度。这三种路线各有其优势,也存在短期内无法解决的问题。
未来的AI世界构建需要在这三种技术路线中找到更合适的融合方式,AI生成的游戏可能还有很长的路要走。
2024年12月4日,发布了重磅炸弹:可以将静态照片变成可玩游戏的AI系统。
该系统名为 Genie 2,可以将照片变成可探索的 3D 世界。用户可以使用键盘和鼠标输入来控制环境并与之交互。
前两天,李飞飞的世界实验室刚刚推出了他们的世界创造模型版本。系统还给了一张照片,用AI把它变成了一个可以行走的三维空间,可以互动,但模式没有精灵2那么丰富。
腾讯科技《AI未来指南》此前报道《被全互联网推崇的李飞飞的世界生成模型真的能够构建物理世界吗?》 》,我们还列出了该模型的明显优点和缺点。
12月之前,3D世界生成并没有受到太多关注。
例如,今年11月,谷歌与谷歌利用推出的AI系统Oasis打造了一款可玩的AI生成的《我的世界》;谷歌还在同月发布了首款AI游戏引擎,可以生成《毁灭公爵3D》(一款于1996年1月29日发布的第一人称视角游戏。它是第一批无需图形模拟3D场景的FPS游戏之一)卡片)。
它们都很酷,但只适用于非常有限的游戏,而且质量几乎是 360p。
然而一个月后,顶尖的AI玩家已经不再满足于生成这种“小品”级的互动游戏世界。他们开始追求更大的野心:创造一个完整、清晰、更详细的数字宇宙。而且,这是一个概括性的、适应各种场景和风格的世界。
他们称之为人工智能生成的“世界模型”。他们的路线有什么相同点和不同点?哪一个更接近真实的“世界模拟器”?
世界模型精灵2,为什么这么好,马斯克称其酷?
我们先来看看今天的主角——谷歌的新产品精灵2。
有多好?就连马斯克也会说这很酷。
(马斯克对推文的回应)
首先,图像非常清晰和细致,几乎与PS3一代游戏没有什么区别。
这得益于其发电技术的迭代。
Genie 2的生成逻辑与Sora的DiT()技术没有太大区别。它使用最新的文森图模型3来生成初始屏幕。然后通过一个自回归势扩散模型(Model),系统可以将这个平面图像“扩展”成一个完整的3D空间。
在此过程中,视频首先由自动编码器处理以提取潜在的帧信息,然后传递到使用因果掩模训练的大型模型来处理空间信息和事件信息。一个编码器和一个序列,这就是DiT的基本架构。
但与 Sora 不同的是,Genie 2 引入了可控代理。
为了实现操纵,在推理阶段,它可以根据过去和当前的动作输入同时引入潜在的帧,以自回归的方式生成新的图片。
为了提高动作的可控性,研究团队还引入了无分类器引导(-free)技术,这使得系统能够更准确地响应用户输入。
例如,当您按下键盘上的箭头键时,系统可以自动识别场景中的可控对象(例如玩家角色),而不是移动背景元素(例如树木或云)。
这对于过去的人工智能来说是一个很大的挑战。它需要理解场景中物体的层次关系、物理属性和交互规则。这种智能识别能力来自于另一个项目SIMA对海量视频数据集的训练。系统学习区分场景中的动态元素和静态背景,并理解交互的逻辑。
同时,SIMA还通过模拟反事实体验()来训练代理,从“如果当时采取另一个动作会发生什么”中获得经验,扩大了统一对象交互和角色动画的可能性。
在DiT的加持下,该系统展现出了非凡的涌现能力。例如,当你在水中游泳时,水自然会产生波纹。当阳光透过树叶照射进来时,地面上就会出现斑驳的光影。甚至烟雾的扩散也遵循基本的物理定律。
在渲染方面,精灵2实现了相当完整的物理光照系统。它不仅可以处理直接光照,还可以计算全局照明、材质反射,甚至生成实时动态阴影。这些效果的质量与顶级游戏引擎不太相同,但考虑到它是实时生成的,它相当令人印象深刻。
特别值得一提的是它的场景记忆机制。该系统能够保持场景连贯性长达一分钟,这意味着它不仅要记住可见部分的状态,还要推断和维护有关不可见区域的信息。解决这一技术难题使 Genie 2 能够创建真正一致的 3D 环境。
以这种方式看到它真的很神奇。与9个月前发布的第一代精灵相比,精灵2在从2D到3D的维度提升、交互深度和物理模拟方面实现了巨大飞跃。
(精灵1的生成效果)
这主要是由于使用了DiT架构而不是VIT架构,这使得物理世界图像的生成更加完整和自然。
另外就是SIMA项目的参与。该项目通过观察人类玩家在游戏中的行为学习,积累了大量“人类如何在3D空间中行动”的数据。这些数据可以帮助 Genie 2 更好地理解和模拟 3D 空间中的人体运动生成和物理交互。
(SIMA训练逻辑)
但是,与所有突破性技术一样,精灵 2 也面临着一些严峻的挑战。
由于训练数据的限制,实际应用中仍然存在一定的“错误”:例如,有时系统会生成违反上下文的内容(例如在花园中生成鬼魂)。
或者突然改变场景的物理特性(就像滑雪者突然开始跑酷)。
这些问题反映出AI的长期叙事连贯性和场景一致性需要改进。
但最明显的问题是时长限制——目前Genie的生成在大多数情况下只能持续10-20秒,最多只能生成1分钟的连续场景。
这是因为其自身的局限性,计算量会随着时间的推移呈指数级增长,误差也会不断累积。
在目前非蒸馏的情况下,内存消耗极大,且无法扩展代数。这些问题与过去一年大型语言模型遇到的上下文瓶颈类似。到目前为止,AI图像生成模型还没有有效克服这些困难。毕竟它的计算量比文本要大得多。
因此,游戏设计者还不必太担心。生成游戏不会立即取代手动世界构建。没有人会玩一款只持续几十秒的游戏。
李飞飞、谷歌,构建世界的三种方式
2024年,三个公司都声称自己正在“创造世界”或“构建世界模型”。
与传统的游戏开发或3D建模不同,AI世界模型的目标更加雄心勃勃:它试图创建一个符合物理定律、实时响应交互、视觉逼真的完整数字宇宙。这个世界是“活的”——它会实时响应你的一举一动,就像现实世界一样。这不再是简单的视频生成或3D渲染,而是对物理世界的完整数字重建。
在这场雄心勃勃的技术竞赛中,三家公司的技术路线同步推进:
●Sora追求极致的视觉真实感,利用扩散模型编织时空连续性;
●精灵2致力于创建一个交互式的动态世界,通过自回归生成实现实时响应;
●李飞飞团队World Labs专注于空间几何精度,利用点云技术构建稳定的三维结构。
如果创造一个数字世界就像编织一个巨大的时空结构,那么Sora就是一台精密的织布机。
它采用独特的时空扩散模型(Model),可以同时处理空间和时间维度的信息。这种方法使Sora不仅能够产生令人惊叹的图像,更重要的是保持时间维度的连贯性。
(Sora的DiT架构)
在Sora编织的世界中,通过海量视频数据训练,模型可以模拟一些经常出现的“物理规则”。
因此,对象之间的交互逻辑在很多情况下更加真实。然而,与一般模型幻象类似,Sora在遇到不太“典型”的情况时非常容易推翻,无法真正模拟物理交互。
而且,Sora需要直接生成整个视频片段。由于需要计算量巨大,实时生成基本上是不可能的。
这是第一条路线:尝试用AI模型直接模拟现实世界的物理规则,构建完全符合物理世界的模型。
谷歌的Genie 2更像是一个实时运行的物理引擎。其核心是自回归潜在扩散模型(Model)。这种架构使其能够根据当前状态实时预测并生成下一时刻的场景。
基于 Sora,Genie 2 使用了更多来自游戏的训练数据,因此它对 3D 实体之间类似游戏引擎的物理模式更加敏感。因为这比自然界真实的物理规则更加简化,模型也更加简化。因此,它的物理反馈的准确性比空要强很多。
(SIMA的核心训练基础是游戏,而游戏又构成了精灵2的技术核心)
同时,它还引入了“控制”,创造了一个不仅可以看到,还可以互动的世界。通过在自回归模型中添加反馈生成,Genie 为世界添加了可控交互。因为是可控的,所以这个世界也需要“实时”生成,以便能够考虑到动作反馈引起的未来变化。
从Genie团队的构成中我们也可以看出,对于这个团队来说,视频生成并不是核心问题,而对agent交互环境的模拟才是。
因此,其团队中的几位专家都是智能领域甚至机器人领域的专家。
(项目负责人Jack-的主页)
这是第二条路,在Sora开创的主流DiT架构上发展,缩小训练范围,增加实时性和交互性。构建一个更符合我们认知系统(即游戏引擎中)的物理世界。
李飞飞的World Labs团队走了一条完全不同的路线。它选择直接在三维空间中构建场景。
根据腾讯科技此前文章中的分析,World Labs很可能采用类似于 CAT3D的点云技术(Point Cloud)和几何重建()技术来保证空间关系的准确性。
(World Lab自己的景深分析)
从技术上讲,这就像教孩子画画和教孩子雕刻之间的区别。谷歌的精灵2选择了“画家”路线:它不断生成二维图像,然后依靠强大的自回归机制和记忆系统来维持世界的连贯性。
World Labs则走的是“雕塑家”的道路:直接在三维空间中构建场景,保证几何关系的准确性。
这就像处理不断变化的电影场景和建造静态博物馆之间的区别。
World Labs的方法可以更好地保证空间精度和稳定性,但在处理动态变化时受到很多限制。所以在它的demo中,你能走动的范围很小,背景看上去是静态的、毫无生气的,用户与背景的交互也相对较少。

另一方面,Genie 2 更擅长处理连续动态变化,但在维持长期空间一致性方面可能面临挑战。简单来说就是bug很多,只能玩几十秒。

但更有趣的是这两种方法背后的哲学差异。 World Labs的解决方案体现了“结构优先”的思维:首先保证空间的正确性,然后用动态内容填充它。这种方法更接近传统的 3D 建模思想,但使用 AI 来自动化该过程。
谷歌的解决方案体现了“体验第一”的理念:通过持续的预测和生成来创造连贯的体验,即使它在某些细节上可能并不完美。
这是第三种方式,先搭建场景,然后把用户放到场景中进行交互。
这三种技术路线各有其优点和局限性。很难说哪一种才是真正模拟世界的方式。
这场技术角力揭示了构建数字宇宙的三个核心挑战:视觉真实性、交互自然性和空间准确性。每一种技术路线都在尝试以自己的方式解决这些问题。
Sora在视觉质量和时间连贯性方面表现良好,具有较高的视觉真实性,并且在还原现实世界的物理规则方面更有野心,但缺乏交互能力和准确性。
Genie 2拥有强大的实时交互能力,但在视觉质量和细微的物理还原上做出了让步。 World Labs 在空间精度方面处于领先地位,但在动态性和交互性方面也聊胜于无。
如果未来框架技术没有重大进展,那么第一款由AI制作的3A级游戏的突破很可能来自于这三种技术的融合。
我们可以想象一个混合系统,结合了 Sora 的视觉质量、Genie 2 的交互能力和 World Labs 的空间精度。这样的系统可以使用混合渲染管线()来在不同场景下的不同渲染策略之间动态切换。
类似于我们早期由于显卡较弱而构建的2D背景建模和3D角色动态游戏。精致、动态、准确,三者达到了一定的平衡。未来AI世界的构建或许也需要在这三种技术路线之间找到合适的融合方法。
这种融合不仅需要技术突破,更需要我们深入思考:什么是“真实”的数字世界?视觉上真实、交互自然还是空间精确?
也许答案不在于非此即彼的选择,而在于如何让这些不同维度的“现实”和谐共存。毕竟,在我们追求构建数字宇宙的过程中,我们不仅创造了新技术,而且重新定义了“真实”世界。


