Meta 首次展示突破性生成式 AI 研究:Meta Movie Gen,功能强大,实用性高

   日期:2024-10-09     来源:网络整理    作者:二手钢材网    浏览:300    评论:0    
核心提示:的功能包括:文本生成视频和音频、编辑已有视频、图片生视频。显然更加便捷,除了视频生成,配备相应的音乐、音效也是拿手好戏。更让人惊讶的是,音效还能够精准地与视频内容匹配。在博客中简单回顾了自己的视频生成之旅。

Sora临产时,meta首次公开展示了其“突破性的媒体生成人工智能研究”:meta Movie Gen.

meta在对应的博客中使用了“”一词,意思是初次显示,所以手痒的用户可能还需要等待一段时间。

“无论您是希望在好莱坞大展拳脚的电影制作人,还是喜欢为观众制作视频的创作者,我们相信每个人都应该能够使用有助于提高创造力的工具,”梅塔说。

根据meta的描述,Movie Gen的功能包括:从文本生成视频和音频、编辑现有视频、从图片生成视频。人类评估表明,Movie Gen 在这些任务上的表现优于业内类似模型。

我们先来看几个具体效果的例子。

可以看到,小女孩衣服的褶皱在跑步时影响了很多视频生成应用。

:一个女孩拿着风筝在海滩上奔跑。她穿着牛仔短裤和黄色T恤,阳光洒在她的身上。

在转头、向前看、微笑等动作时,人物面部仍能保持稳定,克服变形。难怪meta也在博客中提到,这是一项有价值的技术,可以用来分享日常生活。

生成动物对于Movie Gen来说也是小菜一碟,动物的毛发和动作都非常逼真。仔细观察这只猴子的尾巴。遮挡后仍能遵循遮挡前的运动轨迹。背景生成结果也非常合适。水面的起伏和倒影栩栩如生。不过水下折射的生成效果似乎还有一定的提升空间。

:一只红脸白毛的猴子正在天然温泉中沐浴。猴子在水上玩着一艘木头做的微型帆船,上面有白色的帆和一个小舵。温泉周围绿树成荫,岩石和树木星罗棋布。

如果视频较长,Movie Gen 也能稳定运行。人物的大幅度动作也更加真实。但当每一帧都冻结时,还是会出现一些瑕疵。然而,这是视频生成的一贯问题,meta 可能会在未来改进它。

_me<em></em>ta又给OpenAI一记重击,视频生成Movie Gen震撼登场,甚至可以配音、编辑_me<em></em>ta又给OpenAI一记重击,视频生成Movie Gen震撼登场,甚至可以配音、编辑

当 Sora 刚推出时,经常需要这样的音频生成应用程序来提供帮助。 Movie Gen 显然更方便。除了视频生成之外,它还擅长配备相应的音乐和音效。

面对整个视频场景,合适的背景音乐可以贯穿整个过程。不仅如此,音效的适应性也很强。瀑布流水的声音非常真实。

视频链接:#rd

:雨倾盆而下,倾盆而下,伴随着背景音乐。

更令人惊讶的是,音效能够精准匹配视频内容。它可以通过视频中的动作节点来把握音效的时机,使画面和声音相得益彰,给我们一个完整的生成效果。

视频链接:#rd

:轮子飞速旋转,滑板“咚”的一声落在了水泥地上。

Movie Gen 似乎在视频和音频方面都表现良好。

如果meta所说属实,那么Movie Gen才真正可以被视为目前最先进、最身临其境的“讲故事模型套件”。

meta是指用于训练的数据集都是公共数据集或者授权数据集。下面将简要介绍每项能力及其背后的技术。更详细的内容请参考原文。

meta 在他的博客中简要回顾了他的视频生成历程。他们的第一波生成式 AI 研究始于 Make-A-Scene 系列模型,该模型可以生成图像、音频、视频和 3D 动画。

随着扩散模型的出现,他们在Llama基础模型的基础上进行了第二波研究,成功实现了更高质量的图像和视频生成以及图像编辑。

Movie Gen 是元研究的第三次浪潮。它们将上述所有模式结合在一起,为用户提供前所未有的进一步细粒度控制。

下面详细介绍Movie Gen的功能。

视频生成

给定一个文本提示词,Movie Gen 使用针对 图像和 视频任务优化的联合模型来创建高质量、高清的图像和视频。该 30B 参数模型能够以 16 FPS 生成长度长达 16 秒的视频。 meta 表示,它还发现这些模型可以推理物体运动、主物交互和相机运动,它们还可以学习各种概念的合理运动——使它们成为同类中的 SOTA 模型。

具体流程如下图所示。他们首先通过时间自动编码器模型(TAE)训练时空压缩的潜在空间,然后基于此训练生成模型。

至于模型架构,他们采用了它,整体位于Llama 3的设计空间中。下表显示了其30B参数库模型的各种超参数。值得注意的是,这里的30B参数指的是参数量本身,不包括文本嵌入模型、TAE等。

为了训练这个模型,meta 使用了多达 6144 个 H100 GPU,每个 GPU 的热设计功耗为 700W,并配备 80GB 的 HBM3。

下图展示了Movie Gen主干网络的整体结构以及所使用的模型并行化机制。具体包括张量并行化(TP)、序列并行化(SP)、上下文并行化(CP)和完全共享数据并行化(FSDP)。

me<em></em>ta又给OpenAI一记重击,视频生成Movie Gen震撼登场,甚至可以配音、编辑__me<em></em>ta又给OpenAI一记重击,视频生成Movie Gen震撼登场,甚至可以配音、编辑

在训练过程上,他们采用了多阶段训练方式,分为三个阶段:

后期自然会进行微调。

在推理阶段,meta的一个创新想法是首先使用Llama 3重写用户输入的提示词,并将其扩展为更详细的版本。实践表明,该方法确实可以帮助提高生成结果的质量。此外,meta还引入了一些提高推理效率的新思路。

实际上,下表显示了Movie Gen Video模型的胜率以及之前的相关研究。注意,这里的数值是Movie Gen的胜率减去其败率,因此可以看出Movie Gen的整体表现比之前的模型要好。

个性化视频

基于上述基本模型,meta还开发了个性化的视频功能。用户只需提供人物图像输入和相应的文字提示词,即可生成包含人物详细信息和文字描述的视频。 meta 表示,Movie Gen 生成的个性化视频在保留人类身份和运动方面是最先进的。

下图展示了个性化Movie Gen Video模型(PT2V)的架构和推理过程。

具体来说,Movie Gen Video 模型首先使用其权重进行初始化,然后添加额外的可学习参数以实现基于参考图像的条件编辑。

训练过程从预训练开始(分为三个阶段:身份注入、长视频生成、自然度提升),然后进行监督微调。

结果表明,经过微调后,PT2V模型在身份和人脸一致性方面表现非常好。

下图给出了两个与ID-的对比示例:

精准视频编辑

仍然基于相同的基本模型,meta还具有视频编辑功能,并且可以实现非常精确的编辑——只能操作相关像素!具体来说,给定视频和文本提示词,模型可以生成满足要求的修改输出,包括一些非常高级的编辑功能,例如添加、删除和替换元素,以及修改背景和样式等全局元素。 。

如果实际效果真如meta描述的那么好,那么这个功能或许会成为一大利器。

为此,meta 团队还采用了多阶段方法:首先执行单帧编辑,然后进行多帧编辑,最后对整个视频进行编辑。

为此,他们对前述的视频生成模型进行了一些修改。首先,通过向图块嵌入工具添加额外的输入通道来实现输入视频的调节,从而允许潜在视频输入与沿通道维度的噪声输出潜在视频连接,并将连接的潜在视频提供给模型。

此外,遵循 Emu Edit 的做法,他们还添加了对特定编辑任务的支持(例如添加对象、更改背景等)。具体来说,该模型为每个任务学习一个任务嵌入向量。对于给定的任务,模型对相应的任务嵌入应用线性变换,从而产生与文本编码器的隐藏表示连接的四个嵌入。我们还将第二个线性变换应用于任务嵌入,并将结果向量添加到时间步嵌入中。此外,为了充分保留模型的视频生成能力,他们将所有新添加的权重设置为零,并基于预训练的 视频模型初始化剩余权重。

该方法的效果非常显着,在两个数据集上的人工和自动评估结果基本上都优于其他对比方法。顺便说一句,Movie Gen Edit Bench 是 meta 提出的一个新基准,用于评估“下一代视频编辑模型的视频编辑能力”。

音频生成

此外,他们还训练了一个13B参数的音频生成模型Movie Gen Audio。该模型可以根据视频和可选的文本提示生成长达 45 秒的高质量高保真音频,包括环境声音、音效 (Foley) 和背景音乐 - 所有这些都与视频内容同步。

视频链接:#rd

下图是Movie Gen Audio的模型示意图。可以看到它采用了基于流匹配的模型架构(流生成模型和扩散(DiT))。此外,还添加了一些条件模块来控制模型。

此外,他们提出了一种音频扩展技术,可以为任意长度的视频生成连贯的音频。下面是该技术的示意图。目标是一次生成 30 秒长度的音频,然后使用扩展将其扩展到任意长度。

总体而言,他们在音频质量、视频到音频对齐和文本到音频对齐方面实现了 SOTA。

结论

meta在架构、训练目标、数据处理方法、评估协议、推理优化等多个技术方面取得了创新突破。下图为Movie Gen四种能力的人类A/B评估对比结果。正的净胜率表明人们更喜欢 Movie Gen 而不是其他行业模型。

meta此次展示其在视频生成方面的研究成果确实出人意料,这使得它在这个日益拥挤的战场上又一个强有力的竞争对手,而我们目前还不知道meta是否会发布Llama系列模型。就这样,免费发布Movie Gen,让自己在真正的道路上前行。总之,网友们已经很期待了。

最后,按照惯例,我还是要问:索拉?

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2