AI角色扮演游戏(如C.AI)自发布以来一直是人们最喜爱的AI产品之一。虽然广受欢迎,但不少用户表示期待在VR中与这些角色进一步交流。
近日,南洋理工大学研究团队在VR中实现了首个3D角色扮演人工智能系统,并发布了详细的技术报告。是的,这意味着在 VR 中与各种角色进行沉浸式聊天已经可以实现!

项目主页:
技术报告:
完整介绍视频:
从技术报告中我们可以看到,它支持多种角色,包括超级英雄蝙蝠侠、可爱机器人、二次元老婆、香蕉猫、世界名人特朗普……

驱动的AI角色可以识别用户的肢体语言来关心和理解用户。


想让你的角色跳舞吗?只要你说了什么,角色就会明白并去做。

您还可以与角色玩游戏,例如按照用户的节奏移动,或石头剪刀布。

那么该提议背后的动机是什么?该模型如何运作?使用什么样的数据进行训练?
研究背景
您是否想过与虚拟角色进行面对面的深度对话?它不仅仅是简单的言语交流,而是可以像真实社交一样观察对方的面部表情、自然的肢体语言,甚至微妙的情绪变化。
心理学研究表明,社交互动的沉浸程度越高,用户体验就越好。然而,目前的AI角色(如.ai等)仍然仅限于文本或语音交互。这促使我们思考:如何构建形态更丰富的3D自主角色?
为了实现这一目标,主要面临两个挑战:
1. 3D角色需要准确观察和理解用户行为信息,并根据上下文和角色设置,通过语音、肢体动作和表情做出适当的反应。这已经超出了之前单一任务(动作理解、动作生成、语音驱动肢体等)的范围。

2、数据稀缺问题。人与3D角色之间多模态交互的数据极其稀缺,收集此类数据需要复杂的设备和巨大的成本。
尽管传统的LLM-Agent框架在高级任务(例如计划和记忆)中表现良好,但它在理解用户行为和提供及时的肢体语言反馈方面存在局限性。这是因为使用文本作为连接子模块的媒介会丢失很多微妙的信息。
有趣的是,机器人领域的研究给了我们启发:对于低级操作任务,基于LLM的端到端视觉-语言-行为(--,VLA)模型表现更好。数字角色本质上是虚拟人形式的机器人,那么构建偏向社交的VLA模型是不是一个潜在的方向呢?
VLA模型

推理图
如图所示,所有角色均由统一的端到端VLA多模态模型驱动。给定角色的设置,模型将用户的语音和动作作为输入,并分别通过 和 将这两种模态编码为新LLM词汇表中的标记。 LLM 基础将自回归输出角色的语音和动作标记。 ,然后通过解码器分别解码为角色的3D动作和声音,驱动角色做出反应。
与GPT-4o相比,该模型多了一个用户动作模态,用于理解用户的肢体语言并生成角色的动作。
这里,用户的动作由 SMPL-X 的 3D 旋转来表示,并且动作分为三个部分:相对于 3D 角色的相对位置、身体动作和手部动作。分别通过3个VQVAE进行编码。用户的语音使用 RVQ-VAE 结构进行编码,并使用 进行解码。在解码过程中,只要输入一小段角色的语音,就可以实现语音克隆。

训练过程

模型的训练主要分为两个阶段:多任务预训练和指令微调训练。
多任务预训练阶段主要使用动作-文本和语音-文本相关数据集进行训练。训练任务包括text-to-、、-to-、、、、六个任务。目标是学习动作、言语和文本之间的联系。
指令微调阶段主要训练模型进行多轮多模态对话的能力。使用合成数据集,模型被要求学习如何根据角色设置和用户输入对语音和动作做出反应。
数据收集
训练模型的数据非常稀缺。毕竟,很少有人与蝙蝠侠面对面交谈过。因此,研究人员考虑使用来自不同模式的现有数据进行合成。
首先,研究人员基于公共动作文本数据集构建了一个带有语义注释的大规模动作库,其中包括超过 40,000 个人类动作,然后使用 GPT-4o 生成角色和用户对话的纯文本脚本。 。
根据生成的脚本动作,从动作库中检索最合适的现有动作,并根据检索到的动作修复相应的行。这样生成的文本脚本可以更好地匹配合成数据中的动作。最后通过语音克隆合成出角色独特的声音。通过这种方式,获得了低成本且可用的合成数据集。

综合数据管道
VR项目实施

VR工程框架

研究人员基于Quest 3开发出了一套完整的VR交互系统。
前端支持用户与3D虚拟角色的沉浸式交互,后端由2块H800 GPU提供计算支持,可支持多种模型和方法。
交互过程中,VR耳机会实时捕捉用户的声音和肢体动作并发送给后台。后端运行模型,生成角色的声音、肢体动作、面部表情反应,并发送给前端驱动角色。
实验结果
在这项工作中,研究人员希望探讨两个问题:与纯语音相比,3D 角色和动作是否会改善 AI 角色扮演体验?与LLM-Agent结构相比,端到端的VLA结构在交互质量和时延上是否有体验上的提升?
为此,研究人员选择了两种对比方法:LLM+、DLP()。前者是纯语音交互,后者是LLM-Agent结构驱动的数字角色。为了保证公平性,这些方法的基础模型都是-7B,并使用vLLM部署进行加速。

定量实验结果
定量实验结果表明,它在动作质量和语音质量方面均优于对比方法,并且具有较低的事件延迟。消融实验还表明,多任务预训练显着提高了模型的最终效果。


实验定性分析及VR使用流程
除了定量实验之外,研究人员还进行了用户实验,让用户在 VR 耳机中与各种角色互动,并根据体验进行评分。可以发现体验明显优于纯语音方法和LLM-Agent结构方法。有趣的是,虽然纯语音方法在对话内容上优于LLM-Agent结构方法,但整体体验仍然弱于后者,这证实了角色和肢体语言对于AI角色扮演体验的重要性。

消融实验结果
总结
在这项工作中,研究人员提出了用于 3D 数字角色端到端建模的 VLA 技术框架、从现有不完整模态数据合成多模态社交交互数据的管道,以及用户支持的沉浸式 VR 交互系统与角色的互动。
当然,作为一个新的方向,研究人员指出了一些值得探索的方向,比如输入输出模态的设置、数据收集方法、跨实体问题、长短期记忆问题、技能学习方法等。有兴趣的朋友可以参考技术报告。
参考:
本文来自微信公众号“新智元”,编辑:LRST,36氪授权发布。


