港科大团队开源VideoVAE+:跨模态视频变分自编码器实现高效压缩与精准重建

   日期:2024-12-31     来源:网络整理    作者:二手钢材网    浏览:154    评论:0    
核心提示:图像和视频的联合训练:通过在图像和视频数据上的联合训练,增强了模型在多任务上的重建性能和适应性。模型能够同时接受图像和视频作为训练数据,既学习图像压缩能力,又提升视频压缩性能。两个版本的模型,以及在三个不同的数据集上对效果进行了全面评测。

AIxiv专栏是机器之心发布学术和技术内容的专栏。几年来,机器之心AIxiv专栏已收到2000余篇报道,覆盖全球各大高校和企业的顶级实验室,有效促进了学术交流和传播。如果您有优秀的作品想要分享,请随时投稿或联系我们进行举报。提交电子邮件:;

香港科技大学团队重大开源+,提出了强大的跨模态视频变分自动编码器(Video VAE)。通过提出一种新的时空分离压缩机制并创新性地引入文本引导,实现了大规模运动的检测。视频的高效压缩和准确重建,同时保持良好的时间一致性和运动恢复。

_开源视角_2020深圳全面超越香港

+ 该模型大幅超越了 2024.11发布的最新模型,也超越了腾讯2024.12发布的Video、VAE、WF-VAE、CV-VAE、Open Sora、Open Sora Plan、Easy-VAE等多种方法。

什么是模型

模型(Video)是基于深度学习的生成模型,用于压缩、重构和生成视频数据。视频从 RGB 像素空间投影到低维空间。常用于将生成模型组合起来,形成两阶段模型结构:即经过的()首先压缩数据维度并去除冗余信息,然后利用模型以较低的速度生成模型。维空间。最后经过的()会对RGB视频进行解码,从而减少计算资源,生成效率更高。

目前的方法

2020深圳全面超越香港_开源视角_

一些方法直接利用图像VAE进行逐帧压缩,忽略了帧之间的时间相关性,导致视频生成过程中出现严重的时序闪烁问题。另外,时间维度上的冗余信息没有被完全压缩,使得后续的扩散模型训练效率低且成本高。

另外,最近开始使用很多考虑时间维度的方法,但仍然存在很多问题。其中包括细节(例如面部、手部、边缘和文本)的模糊和扭曲,以及运动卡顿(缺乏连贯且合理的时序过渡)和重建大运动视频时的伪影等问题。

_开源视角_2020深圳全面超越香港

图1:本研究直观地对比了Open Sora Plan、Open Sora、CV-VAE、-VAE、Easy-VAE等多项优秀作品的研究方法,+可以准确重建大运动视频,有效解决以下问题消除了运动滞后、重建模糊和细节缺乏的问题。

方法

为了解决上述问题,+提出了一种新的跨模态视频VAE架构。其设计要点包括:

开源视角_2020深圳全面超越香港_

1.时空分离的压缩机制:提出了一种时间序列感知的空间压缩方法,有效分离空间和时间信息处理,避免时空耦合引起的运动伪影。

2. 轻量级运动压缩模型:专门针对时序压缩而设计的模型,可有效捕捉视频中的运动动态。

3.文本信息融合:以文本转视频数据集中的文本信息为指导,提高视频细节的保留能力和时间稳定性。

4.图像和视频联合训练:通过图像和视频数据的联合训练,增强模型在多任务上的重构性能和适应性。

开源视角__2020深圳全面超越香港

文章比较了三种时空建模方法:同步建模、顺序建模以及本研究提出的最优时空建模方案。

_2020深圳全面超越香港_开源视角

研究计划具体包括时序感知空间自编码器(-aware)和时间自编码器(-aware):

在第一阶段,研究将 2D 卷积扩展为内核大小为 (1,3,3) 的 3D 卷积,类似于同时建模,同时添加额外的 3D 卷积层来对时间维度进行建模,研究将其称为第一阶段模型是一个时序感知的空间自动编码器。然而,与同时建模的方法一不同的是,在第一阶段,本研究仅压缩空间信息,而不压缩时间信息。

在第二阶段,研究引入了另一个时间自动编码器( )来进一步编码和压缩时间维度信息,作为第二阶段的压缩部分。该研究遵循模式 2 时间编码器和解码器设计。这样,研究同时实现了更好的细节恢复和运动恢复。

同时,本研究提出引入跨模态信息,通过文本引导进一步增强视频生成的细节保留和时间一致性。

该技术的主要特点是:

1. 智能特征拦截

2020深圳全面超越香港_开源视角_

将视频的视觉特征图分成小块(),并将其作为token进行处理。不同的层使用多种尺寸(8×8、4×4、2×2、1×1),以确保每层的特征细节都被跟踪到位。

2. 跨模态注意力机制

首次在视频 VAE 任务中引入文本信息作为语义指导,允许视觉标记(作为查询)和文本嵌入(作为键和值)来计算跨模态注意力并提高细节重建的质量。

3.强大的文本嵌入器

采用先进的Flan-T5模型将文本转换为语义向量,为视频生成提供坚实的语义基础。

其次,本研究采用图像和视频的联合训练。该模型可以同时接受图像和视频作为训练数据,学习图像压缩能力并提高视频压缩性能。在训练过程中,研究观察到添加更多高质量图像数据可以进一步增强视频自动编码性能。

结果

开源视角__2020深圳全面超越香港

该研究提供了模型16和4的两个版本,以及在三个不同数据集上的性能综合评估。

本研究的+模型显着超过了 2024.11发布的最新模型,也超越了腾讯2024.12发布的Video、VAE、WF-VAE、CV-VAE、Open Sora、Open Sora Plan、Easy-VAE等多种方法。

开源视角__2020深圳全面超越香港

同时,研究提供了Demo视频,可以更直观地查看模型的视觉效果。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2