阿里团队推出视频生成模型 Tora,提升精准度减少抽卡次数

   日期:2024-08-03     来源:网络整理    作者:二手钢材网    浏览:232    评论:0    
核心提示:今年1月,通义千问上线了“全民舞王”,凭借“兵马俑跳科目三”出圈了一把;2月,阿里发布肖像视频生成框架EMO,一张图就能让照片里的人开口说话。当时智东西统计了阿里在AI视频上的布局,其在4个月内连发了至少7个新项目,覆盖文生视频、图生视频、人物跳舞、肖像说话等方向。

责任编辑:李水清

AI视频生成赛道蓬勃发展,国内外新型文本生成、图像生成视频产品层出不穷,在各大厂商的“内卷”下,目前的视频生成模型各方面都已接近“与实物难分伯仲”的效果。

但大部分视频生成模型的准确率和遵循指令的能力还有待提升,视频生成依然是一个“画图”的过程,往往需要用户多次生成才能得到符合需求的结果,这也导致了计算成本高、资源浪费等问题。

如何提高视频生成的准确率,减少“抽卡”次数,用尽可能少的资源获取符合需求的视频?

据智东西8月3日报道,阿里巴巴团队近日推出视频生成模型Tora,只需简单几笔操作,即可根据轨迹、图片、文字或者它们的组合,快速生成具有精准运动控制的视频,并支持首帧和末帧控制,将视频生成的可控性提升到一个新的高度。

////2024/08/1_开场.mp4

Tora 是首个面向轨迹的 DiT 框架模型,利用 DiT 的可扩展性,Tora 生成的物体运动不仅能精准遵循轨迹,还能有效模拟物理世界的动态。相关论文于 8 月 1 日发表在 arXiv 上。

阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读__阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读

▲Tora 的论文

Tora目前仅提供视频演示,其项目主页显示未来将发布在线演示以及推理和训练代码。

论文地址:

项目地址:

1.三模式组合输入,精准控制运动轨迹

Tora支持轨迹、文本、图像三种输入模式或三种组合,可以动态精准地控制不同长度、不同宽高比、不同分辨率的视频内容。

轨迹输入可以是各种有方向的直线、曲线,也可以组合不同方向的多个轨迹。例如,可以用S型曲线控制漂浮物的轨迹,用文字描述来控制其速度。在下面的视频中,提示词使用了“慢慢地”、“优雅地”、“轻轻地”等副词。

////2024/08/ 轨迹.mp4

相同的轨迹还可以绕着一个轴反复移动,从而形成晃动的画面。

////2024/08/2_来回轨迹.mp4

在同一幅图像上绘制不同的轨迹还可以让Tora生成具有不同运动方向的视频。

////2024/08/7_同张图片.mp4

基于同样的轨迹输入,Tora会根据主体的差异,产生不同的运动模式。

////2024/08/5_圆圈.mp4

与常见的动笔功能不同的是,Tora 即使没有输入图像,也可以根据轨迹和文字的组合来生成相应的视频。

例如下面视频中的视频1和3是在没有初始帧的情况下生成的,只有轨迹和文本。

_阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读_阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读

////2024/08/ 文本.mp4

Tora还支持首尾帧控制,不过该案例在论文中仅仅以图片的形式出现,并没有提供视频演示。

阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读__阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读

▲Tora 首尾帧控制

那么,只用文本和图像两个模态输入,能达到同样的效果吗?带着这个问题,我尝试在其他AI视频生成器中输入相同的初始帧和提示词。

下面的视频从左到右、从上到下分别是Tora、Vidu、、生成的,可以看出当轨迹为直线时,没有轨迹输入的视频生成勉强满足要求。

////2024/08/7_鱼.mp4

但当要求的运动轨迹变成曲线时,传统的文字+图像的输入很难满足需求。

////2024/08/7_花.mp4

2. 基于框架,两个创新的运动处理模块

Tora 采用 DiT 架构作为基础模型,这是 AI 创业公司 设计并开源的视频生成模型框架。

_阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读_阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读

为了实现基于 DiT 的轨迹控制视频生成,Tora 引入了两个新颖的运动处理模块:轨迹提取器()和运动引导融合器(-Fuser),用于将提供的轨迹编码为多级时空运动块()。

下图显示了 Tora 的整体架构。这种方法与 DiT 的可扩展性一致,可以创建持续时间较长的高分辨率、运动控制视频。

阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读_阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读_

▲Tora整体架构

其中,轨迹提取器采用3D运动VAE(变分自动编码器)将轨迹向量嵌入到与视频块(视频)相同的潜在空间中,可以有效地保留连续帧之间的运动信息,然后使用堆叠卷积层提取分层运动特征。

运动引导融合器利用自适应规范化层将这些多级运动条件无缝输入到相应的 DiT 块中,以确保视频生成始终遵循定义的轨迹。

为了将基于 DiT 的视频生成与轨迹相结合,我们探索了三种融合架构的变体,将运动补丁注入每个 STDiT 块,其中自适应范数 (Norm) 表现出最佳性能。

阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读__阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读

▲运动引导融合装置的三种架构设计

在具体的训练过程中,作者针对不同的输入条件采用了不同的训练策略。

在轨迹训练中,Tora 采用两阶段训练方法进行轨迹学习,第一阶段从训练视频中提取密集光流,第二阶段根据运动分割结果和光流分数从光流中随机选取 1 到 N 个物体轨迹样本,最后应用高斯滤波器进行细化。

阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读__阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读

在图像训练中,Tora 遵循所采用的掩蔽策略来支持视觉调节,在训练期间随机解除遮挡帧,未掩蔽帧的视频补丁不受任何噪声的影响,这使得 Tora 能够将文本、图像和轨迹无缝集成到统一的模型中。

与先进的运动可控视频生成模型进行定量比较时,随着生成帧数的增加,Tora 比基于 UNet 的方法具有越来越大的性能优势,同时保持了高度的轨迹控制稳定性。

阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读_阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读_

▲ Tora 与其他可控视频生成模型的比较

例如基于相同的输入,Tora 生成的视频比模型生成的视频更加流畅,并且更准确地跟踪运动轨迹。

////2024/08/9_比较视频.mp4

3、“期货”已兑现,阿里持续布局AI视频

AI视频生成行业正如火如荼地展开,阿里巴巴也在不断进攻AI视频赛道。相比于Sora等注重视频生成时长和质量的通用模型,阿里巴巴团队的这个项目似乎更注重算法在不同视频生成形式中的具体应用。

今年1月,统一千文推出《全民舞王》,凭借《兵马俑舞动主体3》爆红;2月,阿里巴巴发布人像视频生成框架EMO,只需一张图片,就能让照片中的人说话。

当时智东西统计了阿里巴巴在AI视频方面的布局,4个月内上线了至少7个新项目,涵盖文字生成视频、图像生成视频、人物舞蹈、画像说话等。(国产神级AI亮相!高启强变身罗翔、蔡徐坤成说唱天王,还和Sora合作)

如今,半年过去,EMO从“期货”变成了统一App里的“全民唱罢我登场”功能,向所有人开放,阿里巴巴也发布了更多AI视频项目。

1. 高保真图像到视频生成

它于3月5日发布,是一个基于多粒度图像注入和高质量数据集及训练策略的高保真图像生成视频框架,可以在实现丰富的运动强度和良好的时间一致性的同时,保持生成的视频与给定的参考图像之间的高保真度。

阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读__阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读

▲生成视频效果

项目主页:

2.-v3:通过单张图片+文字生成高清长视频

这是阿里巴巴于4月12日上线的视频生成处理流程,短短三个月已升级至v3版本,通过扩展DiT框架引入运动模块,增强了对时间动态的捕捉能力,保证了生成视频的流畅性和一致性,可以生成不同分辨率、帧率为24fps的6秒左右的视频。

阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读__阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读

▲ v3 生成视频效果

项目主页:

结论:AI 视频生成变得更加可控

如今AI视频生成的时长和质量已经达到了一定的水平,如何让生成的视频更加可控、更加符合需求是当前的一个重要问题。

随着准确度、可控性、资源利用效率的不断优化,AI视频生成产品的用户体验将迎来新的阶段,价格也将更加实惠,让更多的创作者能够参与其中。

_阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读_阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2