聪明的东西
作者ZeR0
编辑莫莹
智东西网11月13日报道今日,国内大型视频模型初创公司盛数科技发布了Vidu 1.5新版本。该版本新增“多图参考”功能,突破“一致性”问题,具备覆盖人物、物体、环境等融合的多主体一致性能力。
通过上传1到3张参考图片,Vidu 1.5可以实现对单个主体的100%精确控制,同时实现多主体交互控制、主体和场景融合控制,并且可以将角色、道具和场景无缝融合。
////2024/11/0_案例5.mp4
在具备处理更复杂任务能力的同时,Vidu 1.5延续了业界领先的生成效率,生成一个视频的时间不到30秒。
今天发布的Vidu 1.5新版本首次展示了上下文学习的能力。它告别了单点微调,并表明视觉模型和语言模型一样,经过充分的训练后具有深度理解和记忆上下文的能力。这也标志着视觉模型进入了新的“语境”时代。

直通车:
1、三大技术突破,攻克“多主体一致性”难题
视频生成中的一个难题是“一致性控制”问题,即模型通常很难确保不同生成视频之间主体的外观、特征和风格保持一致。尤其是在处理包含多个角色或物理的场景时,模型很难同时控制多个主体,主体之间的交互也很难保持自然的连贯性。
Vidu自推出以来一直致力于解决“一致性”的核心问题。最初具有生成“角色一致性”的能力,保证角色面部特征的一致性; 9月,成为全球首个发布“主体一致性”功能,实现角色全身外观一致。这种“多图参考”进一步强化了Vidu在一致性方面的优势。
据介绍,目前除Vidu外,其他视频生成模型均无法有效控制人脸一致性。只有少数模型可以通过对大量相似图像的输入进行昂贵的单点微调来实现基本的面部一致性。
Vidu直接提升了整体视频模型的可控性,通过灵活的多输入实现多角度、多主体、多元素的一致生成。其技术突破具体体现在以下三个方面:
1、复杂主体精准把控:无论是细节丰富的人物,还是复杂的物体,在多个不同视角下都能保证其一致性。例如,复杂的3D动画风格角色可以确保头型、服装等细节在各种棘手的视角下保持一致。

////2024/11/b_案例1.mp4
2、人物五官和动态表情的自然一致性:在人物特写画面中,可以保证人物五官细节和表情变化自然流畅,不出现面部僵硬或扭曲现象。
////2024/11/5_案例2.mp4
3、多主体一致性:Vidu支持上传多个主体图像,包括人物、道具、物体、环境背景等,并实现这些元素在视频生成中的交互。例如,用户可以上传主体、物体和环境的图像,以创建定制角色穿着特定服装并在定制空间中自由移动的场景。 Vidu还支持多个主体之间的交互。用户可以上传多个自定义角色,让他们在指定空间进行互动。此外,Vidu还支持不同主体特征的融合,例如将人物A的正面与人物B的背面无缝融合,创造出全新的人物或物体。
////2024/11/3_案例3.mp4
据圣数科技介绍,目前业内还没有其他视频模式能够实现这些能力。
2.消除“炼金术”环节,使用“LoRA终结者”

上述突破性工作来自于Vidu 1.5背后基础模型能力的全面提升,而不是业界主流的LoRA微调方案。不需要专门的数据采集、数据标注、微调训练环节,直接一键制作高一致性视频。
此前,LoRA微调一直是业界解决一致性问题的主流方案。 LoRA(Low-Rank)解决方案基于预训练的模型,利用特定主体的多个视频进行微调,让模型了解主体的特征,从而能够生成主体下的图像不同的角度、光线和场景。确保其在不同代之间的一致性。
例如,如果你创建了一张卡通狗的图像,想要生成连续一致的视频图像,那么模型在预训练过程中还没有学习到这张图像,所以你需要拍摄多个卡通狗的视频,让模型进一步训练,直到它识别卡通。狗是什么样子的。
然而,LoRA通常需要20到100个视频。数据结构繁琐,需要一定的训练时间。通常需要几个小时甚至更长的时间,成本是单次视频生成的数百倍或数千倍。
另外,LoRA微调模型容易出现过拟合,即在了解学科特征的同时,也会忘记大量原有知识。这使得很难有效控制动态表情或身体动作的变化,很容易产生僵硬或不自然的效果。在复杂的动作或较大的变换过程中,微调后的模型无法很好地捕捉细节,导致主体特征不准确。
因此,LoRA主要适合大多数简单情况下的主题一致性需求,但对于高度复杂的主题或问题场景,需要更多的微调数据和更复杂的模型微调策略。
基于通用模型能力的提升,Vidu 1.5仅需三张图片即可实现高度可控且稳定的输出,直接消除了“炼金”环节,堪称“LoRA终结者”。
3.视觉模型进入“情境时代”
要实现类似的多智能体一致性生成任务,模型需要能够同时理解“多张图像的灵活输入”,不仅是数量上的多张图像,而且图像不限于特定特征。
这与语言模型的“上下文学习”能力有显着的相似之处。
在语言模型中,理解上下文不仅仅是处理单个文本输入信息,而是通过关联前后文本并识别句子之间的关系来生成连贯且情境化的答案或内容。
同样,在视频生成或多图像生成任务中,模型需要能够理解多个输入图像的精确含义以及它们之间的相关性,并能够基于这些信息生成一致、连贯和逻辑的输出。
秉承通用性的理念,Vidu有着与大语言模型一致的设计理念:
1、统一问题形式:大语言模型将所有问题统一为(文本输入、文本输出),而Vidu则将所有问题统一为(视觉输入、视觉输出);


2.统一架构:大语言模型和Vidu都使用单一统一模型来对变长输入和输出进行建模;
3、压缩即智能:大语言模型从文本数据的压缩中获得智能,Vidu从视频数据的压缩中获得智能。

通过不断扩展上下文长度,Vidu从1.0迭代到1.5后出现了智能涌现的效果,模型可以直接通过视觉上下文生成大量新任务。从文本/图像、视频的单一输入主体,到参考信息的多重输入,未来博树科技还将采用更长、更丰富的上下文作为输入,进一步提升模型的性能。
结论:视觉模型将具有更强的认知能力
虽然目前的视觉模型在文本生成和视频方面取得了显着的进展,但与语言模型在深度智能方面的突破相比仍然存在较大差距。
以往的视频模型如果想要实现一致性生成等能力,需要针对每个场景设计相应的模型,并进行微调。与语言模型不同,它们无法通过上下文学习基于少量示例或提示快速适应新任务。
Vidu 1.5展示了出色的情境学习能力。这意味着视觉模型不仅具有理解和想象的能力,而且能够在生成过程中进行内存管理。
同时,更好的一致性控制让Vidu 1.5在创建细腻逼真的人物方面具有显着优势,进一步减轻了生成视频内容的后处理和优化的负担。


