Vidu 全球首发「主体参照」功能,任意主体照片可生成一致视频

   日期:2024-09-13     来源:网络整理    作者:二手钢材网    浏览:232    评论:0    
核心提示:比如生成林黛玉在现代咖啡馆喝咖啡的视频:如果使用以前的「角色一致性」功能,可以保持人物面部特征的一致性,但难以保证整体形象的稳定,因此生成的画面是林黛玉穿着现代装喝咖啡。一、全球首发主体参照功能,让指定形象的角色在不同场景中动起来

智能事物

作者ZeR0

編輯 莫英

智东西9月11日报道今日,国内知名AI视频生成模型Vidu在全球首次上线一项重要功能——“主题引用”()。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_

用户上传任意主题的照片,Vidu 可以锁定该主题的图像,根据输入的描述随意切换场景,并输出同一主题的视频。主题可以是人物、动物、商品、动画角色或虚构人物。

例如,生成林黛玉在现代咖啡馆喝咖啡的视频:

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景__让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

如果采用之前的“人物一致性”功能,虽然可以保持人物五官的一致性,但很难保证整体图像的稳定性,因此生成的图片是穿着现代服装的林黛玉在喝咖啡。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景__让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

Vidu的“主题参照”功能不仅可以保持脸部一致,还可以使人物整体形象保持高度一致,并能根据输入的文字描述灵活输出目标场景,因此可以在保留原图的同时,生成一幅林黛玉在现代场景中喝咖啡的画面,视频画面效果自然逼真,人物造型高度一致。

_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

例如,上传马斯克的这张照片:

_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

使用“主题引用”功能后,生成的视频场景可以随心所欲切换,人物造型与原图一致。

_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_

Vidu 是全球首个支持该能力的视频模型,其中“主题引用”功能可实现任意主题的一致生成,让视频生成更加稳定可控,该功能现已免费向用户开放,注册即可体验。

体验地址:

今年4月底,由声数科技与清华大学联合研发的首个国产原创视频模型Vidu向全球发布,7月底正式上线后,Vidu在高动态、精准语义理解、动画风格、快速推理等方面呈现出全球领先水平的亮点,产品性能位居全球视频大模型“第一梯队”,并在《跨越时空的拥抱》等海外社交媒体平台掀起各类AI视频题材玩法的热潮。

圣数科技联合创始人兼CEO唐嘉宇表示,Vidu几乎是全球动画视频的首选,因为它在人体整体的流畅度、自然度上领先很多,而且生成视频速度很快,单段视频30秒内就能生成。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景__让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

打造维度的圣书科技成立于2023年3月,目前拥有百余人团队,已完成数亿元融资(最新公开披露的是Pre-A轮),投资方包括启明创投、北京人工智能产业投资基金、蚂蚁集团、百度、大唐资本、BV百度风投、港湾投资、金秋基金等知名机构。

如今,圣数科技还启动了合作伙伴计划,邀请广告、影视、动漫、游戏等行业的机构加入,探索新的视频创作模式,在内容共创、技术支持、市场拓展等方面开展合作。

首批合作伙伴包括开心麻花、猫眼娱乐、巨人网络、美克家居、融创文化、河南省非物质文化遗产保护与智慧中心、李克奇艺术学院等知名企业和机构。

_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

1. 全球首创主题参照功能,可让指定形象的角色在不同场景中移动

今天,圣数科技上线了“主题引用”功能,这是视频生成领域的一大创新,它可以根据任意主题的一张图片,根据描述性文字切换场景,输出一段主题相同的视频。

无论是人物、动物、商品、卡通人物、还是虚构主题,在视频生成中都能保证其一致性和可控性。

通过为人物(无论是真实的还是虚构的)提供“主题参考”,Vidu 可以在不同的环境和不同的镜头下保持其形象的一致性。

例如,上传某人的照片:

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景__让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

Vidu 可用于生成她在不同场景的视频。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景__让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

当上传动物图片时,Vidu还能确保它们的细节特征在不同环境和大幅度动作下保持一致。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景__让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_

以产品为主体,产品的外观和细节在不同场景下保持高度一致。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_

Vidu 还可以使动漫人物或虚构主题保持高度的一致性。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景_

而现有的视频模型能力如“图像生成视频”“人物一致性”等在生成效果上存在明显不足,例如图像生成视频基于首帧的连续生成,无法直接输出目标场景,限制了视频内容的多样性和场景的自由度;人物一致性则局限于人物五官的一致性,难以保证人物整体形象的稳定性。

相比之下,“主体参照”并不局限于人,可以用于任何主体。在人体主体下,可以选择保持脸部一致,也可以选择保持人物整体形象高度一致,通过输入文字描述的方式灵活输出目标场景。

2. 突破视频模式限制:可控性不足

大视频模型普遍存在一个核心问题——缺乏可控性,或者说缺乏一致性。

在实际的视频创作中,视频内容往往围绕特定的对象展开,这些对象可以是人物,也可以是特定的物体,并且这些对象在视频中的图像需要保持连续性和一致性。

现有的视频模型往往难以做到这一点,主体在生成过程中经常会崩溃,生成的视频连续性较弱,无法保证每次生成视频时主体、场景、风格等的一致性,特别是涉及到复杂交互的视频生成时尤其明显。

此外,视频模型的输出结果随机性较大,需要不断生成和试验,对镜头使用、光影效果等细节的控制不够精细和准确。

因此,虽然目前的影像模型在画面表达、物理规律、想象力等方面取得了一定的突破,但其可控性的缺乏限制了其在创作连贯完整的影像内容方面的应用,基于独立影像素材的拼接,剧情缺乏连贯性。

为了解决这个问题,业界尝试采用“先AI生成图片,再图片生成视频”的方式,利用分镜图片等AI绘制工具,在画面层面保持主体的一致性,再将这些图片转化成视频片段,并进行剪辑合成。

这种方式的问题在于AI绘图的一致性并不完美,往往需要通过反复修改、局部重绘来解决。另外,实际的视频制作流程涉及的场景和镜头非常多,在处理包含多个镜头成分的场景时,原始图像处理的工作量巨大,占整个流程的一半以上。最终的视频内容会因过度依赖故事板图像而缺乏创意和灵活性。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景__让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

Vidu的“主题引用”功能并不采用传统故事板图像生成步骤,而是通过“上传主题图像+输入场景描述词”的方式直接生成视频素材,可以大大减少工作量,也打破了故事板图像生成流程对视频内容的限制。

这使得创作者可以发挥想象力,在文字描述的基础上创作出丰富、灵活、多样的视频内容,给视频创作带来更大的自由度和创新空间。

3.加速视频创作:3张定妆照完成一个短篇故事,6小时完成一则视频广告

“主题参照”功能锁定了某个人物或者物体的形象,一方面让剧情更加连贯,另一方面也让创作者可以更加自由地探索故事的深度和广度。

光驰矩阵创始人、青年导演李宁正在打造中国首部AIGC院线电影《轩宇》,他利用Vidu预制了男主角的视频片段,所有角色只通过男主角的特写、中景、远景三个镜头展现,并生成三张定妆照。

李宁介绍,此前AI影视创作多采用文字转图片、图片转视频的传统流程,故事板的连贯性难以把控,人物整体造型也难以保持一致,前期调试画面需要花费很大功夫,画面也十分复杂,还容易引发镜头光影失控、画面模糊甚至变形等一系列问题,而这些问题随着视频长度的增加被进一步放大。

他发现,Vidu的“主题参照”功能显著提升了人物整体的连贯性,不再需要前期生成大量画面,人物的移动、画面间的过渡也变得更加自然,大大方便了长篇叙事的创作。

中央广播电视总台导演、AIGC艺术家石宇翔(森海荧光)创作了动画短片《夏日礼物》。他分享称,相比基础的图像生成视频功能,“主题引用”功能摆脱了静态画面,生成的图像更具感染力、更加自由,大大提升了创作的连贯性,也帮他节省了约70%的原始图像工作量,让他可以更加专注于打磨故事内容,而不是生成图像素材。结合维都对复杂动作的处理能力和对多种元素的理解能力,他觉得维都就像是现实生活中的助理“动画师”一样协助创作。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景__让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

▲动画短片《夏日的礼物》视频片段

“主题引用”功能在商业广告方向也显示出巨大的潜力。

广告片的重点之一,是要保证品牌形象在多个镜头、不同场景中的一致性。维度的“主题参照”功能可以很好地实现这一点。例如,在跑鞋广告中,仅用一张产品图,就完成了所有视频画面的生成。无论不同的角度、背景,还是动态表演,跑鞋的形象在整个视频中都保持高度一致性。

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景__让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

据圣数科技官方介绍,该视频仅用一个人6个小时就完成,包括前期策划、素材生成、后期剪辑,30个AI视频素材的生成仅用了3个小时,整个过程仅参考了一张产品图片。

传统广告片制作高度依赖线下拍摄和后期制作,耗时较长且成本较高,而Vidu可以大大节省广告制作成本,让整个输出流程更加高效,同时也能帮助品牌开发新素材,让制作更加灵活。

结论:“主题参考”代表了人工智能完整叙事的开始

此前,维度已与国内外顶尖艺术家合作,创作出数百件优秀作品,各平台阅读量突破千万。在职业创作领域,维度正与AI艺术家携手,探索AI赋能的全新创作模式。

例如与北京电影节AIGC短片单元最佳影片获得者Lab合作创作的动画短片《亲爱的南方先生》,其画质接近传统动画制作标准,但成本仅为传统工艺的1/40。

人工智能实验室负责人陈流芳介绍,短片创作团队仅由导演、分镜师、AIGC技术应用专家三人组成,维度大大缩短了制作周期,成本也大幅降低,制作周期约为1个月,而传统流程需要20人,包括导演、美工、模型师、灯光师、渲染师等不同“工种”,周期约为1个月。

在唐嘉余看来,“题材参照”新功能的推出,代表着完整的AI叙事的开始,AI视频创作也将走向更加高效、灵活的阶段。

无论是制作短视频、动画还是广告,在叙事艺术中,完整的叙事体系是“一致的主题、一致的场景、一致的风格”等要素的有机结合。

因此,视频模型要实现叙事的完整性,就必须完全控制这些核心元素。

“主体参照”功能是维都走向一致性的重要一步,接下来,维都还将继续探索如何精准把控多主体互动、风格统一、场景变换的稳定切换等复杂要素,满足更高层次的叙事需求。

从长远来看,一旦实现完全可控,视频创作行业将发生颠覆性的变化。届时,角色、场景、风格,甚至镜头使用、光影效果等元素,都将化作灵活可调的参数。用户只需动动手指,调整参数,就能完成一部视频作品的创作,而每一部作品的背后,也将是用户基于AI构建的独特世界观与自我表达。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2