艺术家应该庆幸。
近年来,文本到图像的扩散模型为图像合成设定了新标准,模型现在可以根据文本提示生成高质量、多样化的图像。然而,虽然这些模型在从文本生成图像方面令人印象深刻,但它们通常无法提供精确的控制、可编辑性和一致性——这些对于实际应用至关重要的功能。
单纯的文字输入可能不足以传达图像细节,而且中间发生的变化往往并不完全符合用户的意图。
然而,保持主体身份的一致性面临着重大挑战。如下图所示,在“结构 - 保留编辑”中,目标图像和源图像共享整体布局,但在风格、纹理或其他局部特征上可能有所不同;在“身份 - 保留编辑”中,图像结构可能会发生大规模变化,但目标图像和源图像之间的资产可识别为相同。

对于保留结构的编辑,添加图层(例如 )引入了空间条件控制,但仅限于结构指导,并且不能解决跨不同上下文的一致身份适应问题。对于身份保留编辑,LoRA和LoRA等微调方法可以使用一些参考样本来提高一致性,但耗时且计算量大,需要对每个参考进行训练。 IP 和 N-Path 等零样本替代方案可提供更快的解决方案,无需重新训练,但无法提供所需的一致性和定制级别; IP-缺乏完整的定制能力,仅限于面部识别。
在最新发布的研究中,斯坦福大学吴家俊等研究人员提出了一种名为扩散自蒸馏(Self-,DSD)的新方法,该方法使用预先训练的文本到图像模型来生成自己的数据集并用于文本条件图像到图像任务。


我们首先利用文本到图像扩散模型的上下文生成功能来创建图像网格,并在视觉语言模型的帮助下整理大型配对数据集。然后,使用精选的配对数据集将文本到图像模型微调为文本+图像到图像模型。这项研究表明,扩散自蒸馏优于现有的零样本方法,并且在无需测试时优化的各种身份保留生成任务上与每实例微调技术具有竞争力。
论文作者之一、斯坦福大学计算机科学博士生蔡胜渠表示:DSD 重新定义了使用 FLUX 进行零样本自定义图像生成。 DSD类似于零样本,不需要训练。它适用于任何输入主题和所需的上下文角色一致性、项目、资产适应、场景重新照明等。它甚至可以在无需对个性化模型进行任何微调或训练的情况下创建漫画!

以下是一些示例:
角色保留:

物理保存:


创建漫画:

蒸馏扩散
最近的文本到图像生成模型具有生成上下文一致的图像网格的惊人能力(见图 2,左)。受此启发,研究人员开发了一种零样本适应网络,可以快速、多样化、高质量地生成图像,并保留身份,即以参考图像为条件生成一致的图像。

为此,研究人员首先使用预先训练的文本到图像扩散模型、大语言模型(LLM)和视觉语言模型(VLM)来生成和组织具有所需一致性的图像集(第3.1节)。

然后,我们使用这些一致的图像集微调相同的预训练扩散模型,并采用新提出的并行处理架构(第 3.2 节)来创建条件模型。
通过这种方式,扩散自蒸馏以监督方式将预先训练的文本到图像扩散模型微调为零样本自定义图像生成器。
生成配对数据集
为了创建用于监督扩散自蒸馏训练的成对数据集,我们利用预训练文本到图像扩散模型的新兴多图像生成功能来生成由 LLM 生成的线索创建的潜在共识(第 3.1.2 节) 。 (第 3.1.1 节)的正常图像。然后,研究人员使用 VLM 组织这些常见图像样本,以获得具有所需身份一致性的干净图像集(第 3.1.3 节)。数据生成和排序过程如图2左侧所示。
并行处理架构
研究人员希望有一个适合一般图像到图像任务的条件架构,包括结构保留变换和保留概念/特征但不保留图像结构的变换。这是一个具有挑战性的问题,因为它可能需要传输精细细节而不保证空间一致性。
虽然该架构在结构保留编辑(例如深度图像或分割图像)中表现良好,但它很难在更复杂的身份保留编辑中保留细节(源图像和目标图像不是像素对齐的)。

另一方面,IP-可以从输入图像中提取某些概念,例如风格。但它仍然严重依赖于特定于任务的图像编码器,并且通常无法保留更复杂的概念和特征。
研究人员从多视图和视频扩散模型的成功经验中汲取灵感,提出了一种简单有效的方法,将普通扩散模型扩展到图像条件扩散模型。
具体来说,它们将输入图像视为视频的第一帧,并生成两帧视频作为输出。最终损失是在两帧视频上计算的,为第一帧建立恒等映射,为第二帧建立条件编辑目标。
如图2右侧所示,本文的架构设计能够在两个框架之间进行有效的信息交换,使模型能够捕获复杂的语义并执行复杂的编辑,因此可以用于一般的图像到图像的转换任务。
实验
实验中,研究人员使用FLUX1.0 DEV作为教师模型和学生模型,实现自蒸馏。 GPT-4o用于生成提示,-1.5用于数据集组织和字幕制作。他们在 8 个 H100 80GB GPU 上训练所有模型,有效批量大小为 160 次和 100k 次迭代,使用学习率为 10^-4 的 AdamW 优化器。这里的并行处理架构使用基础模型上等级为 512 的 LoRA。
定性评估

下图4显示了定性比较结果,表明我们的模型在主题适应性和概念一致性方面明显优于所有基线模型,同时在输出结果中表现出出色的提示一致性和多样性。作为一种早期的概念提取方法,文本反演方法只能从输入图像中捕获模糊语义,因此不适合需要精确主题适应的零样本定制任务。

值得注意的是,IP-+通过使用更强的输入图像编码器加剧了这个问题,导致输出多样性和适应性降低。相比之下,我们的方法可以有效地保留主题的核心身份,同时实现多样化、适合上下文的转换。如图5所示,“扩散自蒸馏”技术具有显着的通用性,可以熟练处理不同目标(人物、物体等)和风格(写实、动画等)的各种定制目标。此外,各种提示,包括类似的指令都得到了很好的总结,突出了其在各种定制任务中的鲁棒性和适应性。

定量评估
表 1 显示了与基线的定量比较。本文的方法在概念保留和提示跟随方面均取得了最好的综合性能,仅次于前者的IP-+(主要是由于“复制粘贴”效应),并且次于基于实例的调整后者-LoRA。我们注意到++的概念保留评估仍然偏向于“复制粘贴”效果,尤其是在更具挑战性和多样化的提示上。例如,IP系列在概念保留方面表现良好,主要是因为它们具有很强的“复制粘贴”效果,即复制输入图像而不考虑提示中的相关潜在变化。
这也可以部分地从他们在提示跟随分数上的表现不佳看出,无论输入提示如何,这些分数都倾向于参考输入。因此,研究人员还提出了 GPT 分数的“去偏差”版本,就像告诉 GPT 惩罚生成的图像(如果生成的图像与参考图像的直接副本相似)一样简单。可以看到,IP-+的优势已经不复存在。总体而言,扩散自蒸馏是其中性能最好的模型。

消融实验
左图比较了基础模型和LoRA过拟合模型的上下文采样能力。研究人员观察到,虽然将 LoRA 应用于基础模型可以增加输出一致网格的可能性,但它可能会对输出多样性产生不利影响。右图将所提出的架构设计与原始条件模型(通过添加一些输入通道)和IP-进行了比较,表明所提出的架构可以更好地学习输入概念和身份。实验还表明,我们的架构可以有效地扩展到类似的深度条件图像生成。



