本文的主要作者来自北京航空航天大学、VAST和上海交通大学。本文第一作者为北京航空航天大学硕士生黄泽焕。主要研究方向为生成人工智能和三维视觉。本文通讯作者为VAST首席科学家曹彦培和北京航空航天大学副教授陆盛。
最近,2D/3D内容创作和世界模型(World)似乎成了AI领域的热门关键词。多视点图像生成作为计算机视觉的基础任务之一,是上述热门方向的技术基础,在3D场景生成、虚拟现实、具身感知与仿真、自动驾驶等领域展现出广泛的应用潜力。字段。
最近的大多数多视图图像生成工作都在 3D 数据集上微调 图模型或视频生成模型。然而,这些方法在兼容大规模基础模型和生成高分辨率图像方面面临诸多挑战,体现在难以支持更大的基础模型(如SDXL),难以生成多视点图像超过512个分辨率,并且由于缺乏高质量的3D训练数据而导致图像质量下降。总体而言,这些方法的局限性主要源于底层模型的侵入性修改和全模型微调的复杂性。
因此,北航、VAST和上海交通大学团队推出了第一个基于通用多视图生成任务(MV-)的解决方案。通过高效的新型注意力架构和统一的条件编码器,MV-无需训练基本图像模型即可实现多视角一致性和参考图像主题相关性的高效建模,同时支持视角条件。以及几何条件的编码。
综上所述,MV-的功能如下:

MV-效果演示

在深入了解MV-的技术细节之前,我们先来看看它的实际表现。
首先是文本从多个角度生成图像的能力。 MV-不仅支持训练时使用的SDXL基础模型,还可以适配定制训练的图模型(如二维等风格模型)、潜在一致性模型(LCM)、插件等,大大提高了多视图生成的可控性和定制化程度,这是以往的多视图生成模型难以实现的。

MV-还可以支持单视图到多视图图像的生成,并且生成的结果与输入图像具有高度的ID一致性。

下面是使用MV-从文本生成的多视图图像重建3D对象的结果。可以看出,由于MV-生成的多视点图像具有较高的一致性,因此其重建的几何结果也非常优秀。


下面是使用 MV- 从单个图像生成多视图图像后重建 3D 对象的结果。

此外,MV-还支持为已知的网格几何体生成相应的纹理。以下是根据文本条件和单图像条件生成的 3D 纹理结果。可以看出,生成的纹理结果质量很高,并且与输入条件匹配。达到很高的程度。

MV-还可以轻松扩展以生成任意视角。下面是从低到高生成40个俯仰角的结果。可以看出,尽管视角数量增加,MV-仍然可以从多个视角生成一致的图像。


总的来说,MV-做出了以下贡献:
多视图适配器 MV-
MV-是一个即插即用的适配器,它学习多视图先验,可以将其转移到 图模型及其导数,而无需进行特定调整,使它们在各种条件下生成多视图图像时保持一致。在推理时,我们的包含 MV 的条件引导和解耦的注意力层可以直接插入到定制的基础模型中以形成多视图生成器。

通用条件指南
为了支持多视图图像生成任务,我们设计了一种通用条件引导程序,能够同时编码相机和几何信息,为 图模型提供不同类型的引导程序。相机调节由“光线图”() 表示,其中相机的位置和方向信息被精确编码以匹配预训练模型的底层表示。几何条件化通过全局几何表示指导生成,结合三维位置图和法线图的详细信息来捕捉物体的几何特征,有助于提高图像的纹理细节和真实感。条件引导采用轻量级的卷积网络设计,有效整合不同尺度的多视图信息,保证模型能够无缝组合多个层次的条件输入,进一步提高生成效果和适应性。
解耦注意力层

我们提出了一种解耦的注意力机制,通过复制现有的空间自注意力层来引入新的多视图注意力层和图像交叉注意力层。该设计保留了原有的网络结构和特征空间,避免了传统方法对基础模型的侵入性修改。在过去的研究中,为了建模多视图一致性,通常会直接修改self-层,这会干扰模型的学习先验,需要对模型进行充分的微调。通过复制原始自注意力层的结构和权重并将新层的输出投影初始化为零,我们确保新层能够独立学习几何信息,而不影响原始模型的特征空间。这样,模型就可以在不破坏原有预训练特征的情况下,充分利用几何信息,提高多视图生成的效果。

为了更有效地集成不同类型的注意力层,我们设计了并行注意力架构。传统的T2I模型中,空间自注意力层和文本交叉注意力层通过残差连接串联,而我们的设计并行地添加了多视图注意力层和图像交叉注意力层。这种并行架构确保新引入的注意力层可以与预先训练的自注意力层共享输入特征,从而完全继承原始模型的图像先验信息。具体来说,输入特征经过自注意力层后,还同时传递到多视图注意力层和图像交叉注意力层,让这些新层与原始自注意力层并行工作并学习多视图一致性。生成图像条件时无需从头开始学习。这样,我们就可以在不破坏基础模型的特征空间的情况下,高效地扩展模型的能力,提高生成质量和多视图一致性。
多视图注意力机制的具体实现。为了满足不同的应用需求,我们设计了多种多视图注意力策略。对于 3D 对象生成,我们使模型能够生成 0° 仰角的多视图图像,并采用行级自注意力。对于3D纹理生成,考虑到视角覆盖要求,除了在0°仰角生成四个均匀分布的视角外,我们还添加了上下两个方向的视角。通过行级和列级自注意力的结合,实现了视角之间的高效信息交换。在任意视图生成任务中,我们使用充分的自注意力来进一步提高多视图注意力层的灵活性和表现力。这样的设计使得生成效果更加精致丰富,适应各种复杂的多视图生成需求。
图像交叉注意力机制的具体实现。为了在生成过程中更准确地引导参考图像信息,我们提出了一种创新的图像交叉注意力机制,以在不改变原始T2I模型特征空间的情况下充分利用参考图像的详细信息。具体来说,我们使用预训练和冻结的 图 U-Net 模型作为图像编码器,将清晰的参考图像输入到 U-Net 中,并设置时间步长 t=0 来提取空间自注意力层。多尺度特征。这些细粒度的特征包含丰富的主题信息,通过解耦的图像交叉注意力层注入到去噪U-Net中,从而利用预训练模型学习到的深度表示来实现对生成内容的精确控制。该方法有效提高了生成质量,使模型在细节控制上更加灵活和精确。
实验结果
文章首先评估了多视图生成的性能,并将其与现有方法进行了比较。具体来说,本文评估了从文本生成的多视图和从单个图像生成的多视图的质量和一致性。可以看出MV-的结果优于现有方法。


文章还评估了使用MV-生成3D纹理的性能。从下面的结果可以看出,MV-无论是生成质量还是推理速度都达到了SOTA水平。

文章还对所提出的方法进行了消融实验,如下表所示,验证了MV-的效率及其提出的并行注意力架构的有效性。

此外,本文在附录中探讨了以下内容:


