今年AI游戏世代天花板不断突破。就在昨天,国内游戏AI团队也加入并达到了新的高度。
巨人网络发布了《千影》大型音频游戏生成模型,包括大型游戏视频生成模型和大型视频配音模型。
我们先来体验一下生成的1分26秒的样本:
通过一段文字和一张图片,您可以生成模拟开放世界游戏的视频,具有声音、交互性以及控制角色各种动作的能力。
对于开放世界游戏,不需要游戏引擎
综上所述,它是一个开放世界游戏的大型视频生成模型。研究团队来自巨人网络AILab和清华大学。首次实现各种角色动作的交互控制,定制游戏角色,具有更好的游戏物理模拟特性。
物理定律的精确模拟
从生成的视频来看,无论是汽车碰撞、火焰燃烧等大场景,还是人物在水中缓慢行走、自动绕过障碍物,都表现出了出色的遵循物理规律的能力。

各种运动控制
互动对于游戏来说至关重要。它可以理解用户输入交互,包括文本、图像或鼠标、键盘按键等操作信号,以便用户控制游戏角色的各种动作。
视频展示了角色与身体动作的互动,如射击、变形、施法、使用道具、攀爬、爬行、奔跑和跳跃。它比同类模型更丰富、更流畅。

角色个性化和精细的主题控制
还支持输入角色图片实现角色的自定义生成,同时实现对角色肢体的精细化控制,从过去的AI捏脸跳跃到现在的AI捏人。

第一人称视角
另外,我还看到了模型生成的第一人称视角游戏画面。不得不说,这个视角在游戏中非常具有代入感。

它是如何实现的?
从技术角度来看,通过整合跨模态特征、细粒度角色表示、动作增强和多阶段训练策略,以及构建的高效、高质量的游戏视频训练数据生产管道,生成的内容具有具有互动功能的多样化动作。控制、角色定制和精细主体控制、复杂动作和动作连续性等功能。
在交互实现方面,它结合了多个模块:理解用户输入的多模态交互方法和实现多样化动作控制的多模态交互网络——MMIN(Multi-Modal);一个动作网络,实现复杂且连续的角色动作的生成。 — IMN ( );用于自定义角色生成和改进的角色生成质量的角色网络 - ICN ( )。

此外,为了实现高质量的训练数据构建,巨人AI团队设计了高效的游戏视频数据处理流程:
基于场景和精彩片段制作高质量视频片段,其中从精彩片段视频片段中提取音频信息作为V2A训练集;
基于体育得分、审美得分等的视频过滤;
基于vLLM的视频处理,并对结果进行剪辑评分文本视频对齐评分过滤;
多任务数据处理,如分割、主体检测、姿态估计、深度估计、相机运动估计等。

让AI游戏进入音频时代
此外,巨人还发布了针对视频配音场景的大型多模态音效生成模型。
这在之前的AI游戏生成领域还没有实现过,而“声音”是游戏的基本要素。
由巨人网络AI实验室、西北工业大学ASLP实验室和浙江大学联合开发,其最重要的技能是:为无声视频添加配音效果,实现视听同步。
具有强大的时间对齐和视频语义理解能力,支持多种类型的高清音效生成,具有泛化多种应用场景的能力,包括游戏视频、动画视频、真实世界视频、AI生成视频、 ETC。
优秀的理解各种视频图像的能力
我们以游戏中的配音为例。通过演示视频可以清楚地看到,该模型能够准确生成与场景高度契合的音效,包括开相机、炮弹、射击等声音。完美还原坦克进攻、士兵防守、射击的声音,营造身临其境的游戏体验。
在动漫场景中,该模型展示了其理解复杂情节的能力。例如,在一段小鸟互相扔鸡蛋的动画中,模型生成了从惊喜到扔鸡蛋、鸡蛋飞行路径、接鸡蛋等一系列音效,与视频内容高度一致。
我们来看看下面这张快速移动的球的图片。模型产生的声音能够精准匹配画面的动态变化,针对球的不同状态生成相应的场景音效,充分展现了其对动画内容的深入理解。
在真实场景中,通过一段激烈的乒乓球比赛视频,模型能够准确生成每次击打时产生的音效,甚至生成运动员跑步时脚底与地面摩擦的声音,充分展现了对视频的整体理解。对语义的深刻理解和出色的音效生成能力。
评测结果领先
研究团队公开了两个核心模块:基于DiT的Flow-的音效生成模块和多模态思维链(Multi-modal CoT)控制模块,为音效生成提供精准支持。
在音效生成模块中,团队基于DiT的Flow-框架提出了一种创新的视听融合结构(Audio-,AVA)。该模块通过动态融合高分辨率视觉和音频功能来确保跨模式对齐。通过多阶段的训练策略,逐步从T2A过渡到V2A,并使用不同的数据比例训练,模型具有从文本、视频或两者的组合生成高质量音效的能力。
同时,团队设计了多模态视音频链式思维结构(Multi-modal CoT),结合强化学习,实现小样本情况下音效生成的精细控制。可广泛应用于短视频、动画、游戏等配音场景。 。

团队精心构建了符合行业标准的V2A(视频转音频)数据集,涵盖电影、游戏、广告等多场景、多时长的音视频内容。为了保证数据质量,研究团队还设计了完整的数据处理流程,涵盖数据采集、标注、过滤和编辑。针对不同视频类型的复杂性和差异性,团队基于多模态大语言模型(MLLM)和手动标注完成了时间戳和声音事件的高质量标注。同时,通过严格的筛选,过滤掉背景音乐干扰和音视频不同步的内容,最终生成符合行业标准的训练数据,为后续研发提供坚实的基础。

从客观指标评价可以看出,大模型在整体效果、时间对齐、视频语义理解等客观评价方面达到了业界领先水平。

从长远来看,视频生成技术因其替代游戏引擎的潜力,必将为游戏行业带来颠覆性创新。
你可以通过文字描述来创造一个游戏,不再是异想天开。这一领域的发展速度超乎想象。人工智能将为游戏创作带来平等的权利。未来游戏创作的唯一限制可能就是创作者的想象力。
今年年初,史玉柱提到巨人网络正在探索打造AI游戏孵化平台,降低制作游戏的门槛,让普通人也能玩游戏。这不,年底交了第一份“作业”,期待他们接下来在AI游戏赛道的规划。
欲了解更多详情,请点击下面的链接查看完整的技术报告。 ://..io//
*本文经量子位许可发表,仅代表作者个人观点。
本文来自微信公众号“量子比特”,作者:云中,36氪经授权发布。


