机器之心AIxiv专栏:全球顶级学术与技术内容分享平台

   日期:2024-12-20     来源:网络整理    作者:二手钢材网    浏览:230    评论:0    
核心提示:此外,考虑到视频中自然包含真实世界中多样化的动态变化,我们直接从原始视频出发,构建大规模训练数据,使模型能够学习和模拟真实世界的变化规律,从而实现高保真的生成与编辑效果。

论文第一作者陈曦目前是香港大学三年级博士生。此前,他毕业于浙江大学,获得学士学位,并获得法国马赛中央理工大学双硕士学位。主要研究方向是图像和视频的生成与理解。他在该领域的顶级期刊和会议上发表了十多篇论文,他的开源项目已获得超过 5K star。

在这篇文章中,香港大学和Adobe联合提出了一种新的图像编辑和生成范式,称为.该方法将多个图像任务统一到视频生成框架中。通过将不同类别和数量的输入/输出图像建模为视频帧,它从大规模真实视频数据中学习属性、姿势和光照等各种变化模式。这实现了高保真生成效果。

我的世界真实世界生成__对数函数图像规律

效果展示

我们专注于演示图像生成和编辑中三个最具挑战性的任务的效果:图像自定义生成、指令编辑和对象插入。

此外,它还支持多种图像生成、编辑和感知任务,例如文本生成、可控图像生成、图像恢复、深度估计和目标分割。

_对数函数图像规律_我的世界真实世界生成

_对数函数图像规律_我的世界真实世界生成

在单目标定制生成任务中,它可以准确保留目标细节(如标志),同时生成姿势和场景变化较大的图像,自然地模拟物体在不同环境下的状态,从而实现高质量的生成效果。

对数函数图像规律_我的世界真实世界生成_

同时,它展现了强大的多目标组合能力,能够精确建模不同物体之间的交互,生成高度协调且逼真的图像效果。

_对数函数图像规律_我的世界真实世界生成

值得注意的是,我们没有专门收集人像数据进行训练,但仍然能够生成自然逼真的全身图像定制效果,展示了其出色的泛化能力。

对数函数图像规律__我的世界真实世界生成

在命令编辑方面,用户可以通过自由输入文字来灵活编辑图像,如添加或删除对象、修改属性等。实验结果表明,其具有出色的场景理解能力,能够真实模拟阴影、反射、正反面等。物体的后方遮挡关系,并生成高度逼真的编辑效果。

_对数函数图像规律_我的世界真实世界生成

对数函数图像规律_我的世界真实世界生成_

它支持从图像中提取特定目标作为前景并将其插入到背景图像中,自然适合虚拟试衣、标志迁移、对象传输等任务。实验表明,插入的目标能够非常自然地融入背景图像中,呈现出与背景一致的和谐角度、反射效果和环境匹配,显着提高了任务生成质量。

我的世界真实世界生成__对数函数图像规律

除了上述任务外,还支持文本生成图像、可控图像生成、参考图像补全、目标分割、深度估计等任务,并且可以同时生成多张图像。此外,它支持各种任务的相互组合,从而展现出许多未经专门训练的强大能力,进一步证明了其多功能性和可扩展性。

方法介绍

目标是为图像生成和编辑任务构建统一的框架。我们观察到,不同的任务通常具有不同类型和数量的输入和输出图像,以及其独特的具体要求。然而,这些任务有一个共同的核心要求:基于控制信号对图像变化进行建模,同时保持输入和输出图像的一致性。

这个需求自然和视频生成任务是一致的。视频生成需要同时满足内容的一致性和帧间运动变化,并且能够支持不同帧数的输出。受到 Sora 等最新视频生成模型所取得的优异结果的启发,我们建议将不同的图像生成和编辑任务统一到视频生成架构中。

此外,考虑到视频自然包含现实世界中多样化的动态变化,我们直接从原始视频构建大规模训练数据,使模型能够学习和模拟现实世界的变化模式,从而实现高保真生成和编辑。影响。

对数函数图像规律__我的世界真实世界生成

我的世界真实世界生成_对数函数图像规律_

模型结构:我们借鉴了类似Sora的视频生成架构,将不同的输入输出图像作为视频帧进行处理。具体来说,图像经过VAE编码后转换为视觉标记,然后输入进行处理。同时,我们引入了T5文本对输入指令进行编码,并将生成的文本标记与视觉标记一起输入。通过利用完整的机制,该模型可以充分建模视觉和文本之间的关系,实现跨模态信息的高效融合和全面理解。这样的设计保证了模型在处理不同任务时产生效果的灵活性和一致性。

分层提示:为了解决不同任务和数据之间的冲突问题,同时支持多样化的任务和数据,我们提出了(分层提示)设计。在传统提示词()的基础上,引入了Image和Image两个新组件。

针对每个类别分别训练不同的输入图像,以帮助模型在联合训练中区分输入图像的作用和语义,避免不同任务和数据带来的冲突和歧义。

通过这种分层提示设计,模型可以更高效地整合多样化的任务和数据,显着提高联合训练的效果,并进一步增强其生成和编辑能力。

对数函数图像规律_我的世界真实世界生成_

数据构建:我们基于原始视频数据构建了大规模的训练数据集,以支持多样化的任务需求。具体步骤如下:

1.编辑数据生成

对数函数图像规律__我的世界真实世界生成

从视频中随机提取前后两帧分别作为编辑前后的图像结果,并借助视觉语言模型(VLM)生成相应的编辑指令,以模拟多样化的图像编辑任务。

2. 多目标定制生成

我们结合VLM和SAM2在视频的第一帧中分割不同的目标区域,并使用这些目标区域重建后续帧以构造多目标定制生成数据。该方法可以模拟复杂场景中目标的动态变化,为多目标生成任务提供高质量的数据支持。

3. 可控生成和图像理解标注

使用一系列图像理解模型(例如深度估计模型)自动标记视频和图像。这些标签不仅为可控生成任务(如深度控制生成)提供了丰富的条件信息,也为图像理解任务(如深度估计、对象分割)提供了标准参考。

通过这种基于原始视频的多层次数据构建策略,我们的模型可以学习现实世界的动态变化,同时支持各种复杂的图像生成和理解任务,显着提高了数据集的多样性和泛化能力。模型。化能力。

效果对比

在命令编辑任务中,它可以在完成更具挑战性的编辑任务的同时,更好地保持背景像素的一致性。例如,它可以根据用户指令生成“蚂蚁抬起汽车”的图片,并动态调整汽车抬起后冰面上的反射,使其与场景的物理变化一致。这一能力充分展现了其在场景理解和细节生成方面的强大性能。

_我的世界真实世界生成_对数函数图像规律

对数函数图像规律__我的世界真实世界生成

在定制生成任务中,无论是细节的精确保留还是指令的准确执行都表现出了显着的优势。其生成结果不仅能够忠实还原目标细节,还能灵活应对多样化的指挥需求,体现了优异的生成能力和任务适应性。

_对数函数图像规律_我的世界真实世界生成

在对象插入任务中,我们与之前的代表性方法相比,表现出了更强的环境理解能力。例如,它可以正确模拟狗在水中的姿势,自动调整桌子上罐子的视角,准确地模拟模特身上衣服的状态,同时保留模特头发的细节。这种对场景和物体之间关系的高层次理解能够产生远远超出现有方法的真实性和一致性。

_我的世界真实世界生成_对数函数图像规律

未来展望

在多项任务中展现出强大的潜力。然而,随着输入和输出图像数量的进一步扩大,训练和推理效率问题成为需要解决的关键挑战。为此,我们计划探索设计更有效的注意力结构,以降低计算成本并提高处理速度。同时,我们将这一解决方案进一步扩展到视频生成和编辑任务,利用高效的结构应对更复杂的数据规模和动态场景需求,促进模型性能和实用性的全面提升。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2