李飞飞与谢赛宁揭示多模态大语言模型的空间记忆与推理能力突破

   日期:2024-12-23     来源:网络整理    作者:二手钢材网    浏览:278    评论:0    
核心提示:就在刚刚,李飞飞、谢赛宁等发现:多模态大语言模型居然能记住和回忆空间。为此,谢赛宁团队进行了一项最新研究,探索多模态大语言模型(MLLM)如何感知、记忆和回忆空间的。无独有偶,谢赛宁和LeCun的团队,前不久还刚刚提出了一种全新的多模态理解与生成模型——MetaMorph。

更令人震惊的是,虽然MLLM的空间推理能力仍然是瓶颈,但这些模型中已经出现了局部世界模型和空间意识的迹象!

最强大脑中外pk赛__最强大脑中日pk赛结果

论文地址:

合著者:Jihan Yang, Yang, W. Gupta, Rilyn Han

李菲菲表示,她非常喜欢这项关于“空间思维”的研究。空间推理对于人类智力至关重要。 2025年,空间智能的边界很可能再次被打破。

_最强大脑中外pk赛_最强大脑中日pk赛结果

谢赛宁还表示,大家与李飞飞关于空间智能的有趣头脑风暴,已经发展成为纽约大学、耶鲁大学和斯坦福大学之间令人惊叹的合作。

他们相信视觉空间智能在现实世界中的应用比以往任何时候都更加接近。例如,AI眼镜可以显示我们去过哪里,以及定位和导航。

所以这个区域非常迷人。

最强大脑中外pk赛_最强大脑中日pk赛结果_

不久前,伊利亚表示,预训练已经结束,数据像化石燃料一样难以再生。然而,不少研究人员站出来反驳,人类刚刚耗尽了文字,海量视频还摆在我们面前。

这个时候,李菲菲和谢赛宁的研究就颇为贴切。

更何况,不久前,谢赛宁与LeCun等人合作完成了一件作品。他们发现法学硕士距离理解和生成视觉内容并不遥远。

最强大脑中外pk赛_最强大脑中日pk赛结果_

在这些测试中,大型模型被人类彻底击败

最强大脑中外pk赛__最强大脑中日pk赛结果

在项目主页之初,团队发布了一场非常有趣的人类AIPK。

内容是与赖在空间智能能力上较量。

最强大脑中外pk赛__最强大脑中日pk赛结果

-相对方向

例如,这个问题是“如果我站在冰箱旁边,面对洗衣机,炉灶在左边、右边还是后面?”

替代答案是: A. 在后面 B. 右边 C. 左边

1.5 Pro给出了错误答案:左。

_最强大脑中外pk赛_最强大脑中日pk赛结果

-相对距离

问题:从每个物体的最近点测量,哪些物体(桌子、凳子、沙发、炉子)距离电视最近?

正确答案是一张桌子,但模型回答的问题是一张沙发。

_最强大脑中日pk赛结果_最强大脑中外pk赛

-绝对距离

从每个物体最近的点测量,桌子和钢琴之间的距离是多少?

正确答案是 2.3 米,但模型的答案是 0.1 米。

最强大脑中外pk赛__最强大脑中日pk赛结果

-房间面积

_最强大脑中外pk赛_最强大脑中日pk赛结果

这道题问的是房间有多少平方米。

正确答案是29,但1.5-Pro的答案是50。

最强大脑中外pk赛__最强大脑中日pk赛结果

-数数

这道题问的是,房间里有几把椅子?

正确答案是3,但是1.5-Pro只算了2。

_最强大脑中日pk赛结果_最强大脑中外pk赛

-出场顺序

问题:以下类别(毯子、垃圾桶、微波炉、植物)首先出现在视频中的顺序是什么?

模型的计数顺序仍然错误。

_最强大脑中外pk赛_最强大脑中日pk赛结果

总之,在这些PK中,模型被人类彻底摧毁了。

多模态大型模型展示了空间思维

毫无疑问,视频理解是下一个前沿领域,但是,并非所有视频都是相似的。

现在,模型也可以根据剪辑和故事片进行推理,但是我们日常生活中的空间呢?我们和未来的人工智能助手可以对它们做什么?

为此,谢瑟宁团队进行了一项最新研究,探索多模态大语言模型(MLLM)如何感知、记忆和回忆空间。

最强大脑中外pk赛__最强大脑中日pk赛结果

_最强大脑中外pk赛_最强大脑中日pk赛结果

在视觉领域,我们人类可以处理空间,但很少进行推理;而多模态大语言模型善于思考,但往往忽视空间逻辑。

最强大脑中外pk赛_最强大脑中日pk赛结果_

然而,对于人类来说,无论是进行心理旋转测试还是为新家挑选家具,我们都严重依赖空间和视觉思维,而这种思维方式并不总是能很好地转化为文字。

最强大脑中外pk赛__最强大脑中日pk赛结果

_最强大脑中日pk赛结果_最强大脑中外pk赛

视频是一种自然媒介,反映了我们体验世界的方式,需要更长形式的推理以及世界建模。

为了探索这一点,该团队研究了涵盖各种视觉空间智能任务的新基准,包括关系和度量任务。

那么,这个过程是如何获取数据和标注的呢?在之前的 CV 工作的基础上,该团队重复使用了现有的空间扫描视频(最初用于 3D 重建),并使用其真实注释来自动生成 VQA 问题。

与此同时,人类仍然参与其中,进行质量控制。

_最强大脑中日pk赛结果_最强大脑中外pk赛

超过 5,000 个问答对表明 MLLM 实际上表现出了有竞争力的视觉空间智能!

其中,Pro的表现最为抢眼。

当然,它们和人类之间还是有差距的。

最强大脑中日pk赛结果__最强大脑中外pk赛

这些任务对于人类来说并不容易(毕竟我们自己也经常迷失方向),但人类会通过调整和优化自己的心理模型来适应,而目前的LLM还无法做到这一点。

_最强大脑中日pk赛结果_最强大脑中外pk赛

谢瑟宁说,他最喜欢的研究部分是分析这些任务与以语言为中心的智能有何不同。

当被要求解释他们的推理过程时,法学硕士揭示了他们的弱点:空间推理是他们的主要瓶颈,而不是物体识别或语言能力。

他们通常在观点采择以及从第一视角到客观视角的转变方面存在极大困难,并且在较长的推理过程中容易失去对物体的追踪。

最强大脑中日pk赛结果__最强大脑中外pk赛

最强大脑中日pk赛结果_最强大脑中外pk赛_

该团队的另一个发现是,口头提示技术在这个领域效果不佳——CoT 或多数投票等方法实际上对任务产生了负面影响!

然而,这些技术在一般视频分析任务中非常有效,例如

这再次凸显了一个重要的区别:并非所有视频都是相同的,理解电影情节等任务更多地依赖于基于语言的智能,而不是视觉空间智能。

最强大脑中日pk赛结果_最强大脑中外pk赛_

而最后的结论更是令人震惊。

该团队通过提示模型在笛卡尔网格上“可视化”其记忆来探索模型的功能,其中每个占据的单元代表一个对象的中心。

研究结果表明,在处理空间信息时,MLLM 并没有建立连贯的全局模型,而是从给定的视频生成一系列局部的世界模型。

但当问题涉及相距较远的对象时,当模型的性能迅速下降时,这种限制尤其明显。

这些观察结果表明,该领域未来研究的一个关键方向是开发更有效的空间记忆机制。

最强大脑中外pk赛_最强大脑中日pk赛结果_

网友表示,这种关于“空间思维”的见解实在令人兴奋。提高 MLLM 的视觉空间智能可能会彻底改变人工智能助手。人工智能在日常空间中的未来确实令人兴奋。

最强大脑中日pk赛结果_最强大脑中外pk赛_

有人说,从基于主观事实的模型中提取客观事实似乎比将LLM与Tesla FSD结合起来更具挑战性,因为后者已经推断出了客观事实。

最强大脑中日pk赛结果_最强大脑中外pk赛_

然而,有人说视频理解确实是下一个前沿,但 MLLM 可能并不能真正代表人类智能理解动态视觉信息的方式。

最强大脑中外pk赛__最强大脑中日pk赛结果

项目介绍

研究人员想要探讨的问题是,当MLLM观看视频时,他们是否在进行“空间思维”?

他们能否构建准确、隐式的“认知地图”来回答有关空间的问题?

使用 MLLM 增强空间智能的优点和局限性是什么?

最强大脑中日pk赛结果_最强大脑中外pk赛_

为此,研究人员为 MLLM 准备了可观看的视频数据,并建立了视觉问答(VQA)基准,以探索他们在此过程中实际记住和理解的内容。

他们开发了一种新颖的视频视觉空间智能基准(VSI-Bench),其中包含 5,000 多个问答对,并发现 MLLM 尽管具有竞争力,但仍低于人类水平的视觉空间智能。

为了更好地理解其行为,研究人员探索了 MLLM 如何在语言和视觉上表达空间思维。

可以发现,尽管空间推理能力仍然是其主要瓶颈,MLLM已经逐渐展现出局部世界模型和空间意识。

VSI-工作台

最强大脑中日pk赛结果__最强大脑中外pk赛

研究人员开发了 VSI-Bench,这是一项基准测试,通过 5000 多个问答对来评估 MLLM 的视觉空间智能。

这些问答对源自公共室内 3D 场景重建数据集、++ 和验证集中的 288 个第一人称视频。

VSI-Bench包含八个任务,分为三种任务类型:配置、测量和估计、时空。

图 2 显示了 VSI-Bench 任务的概述;图 3 显示了有关数据集的统计信息。

最强大脑中外pk赛__最强大脑中日pk赛结果

图2 VSI-Bench任务演示

最强大脑中日pk赛结果_最强大脑中外pk赛_

图 3 基线统计。左:三大类任务分布;右:视频长度统计

通过迭代优化提高质量,VSI-Bench 为研究 MLLM 和 3D 重建之间的联系奠定了基础。

研究人员开发了一个强大的管道来构建 VSI-Bench,以支持大规模生成高质量的问答对。

从数据收集和统一开始,他们将不同的 3D 室内场景数据集标准化为统一的元信息格式,集成对象类别、边界框和视频规范,以支持与数据集无关的问题和答案生成。

问题和答案对是通过自动注释和基于元信息的基于任务的问题模板生成的,其中路径规划任务由人工注释完成。

为了确保质量,研究人员的审核过程需要人工参与,通过解决评估人员标记的歧义和错误来迭代地完善问题模板、注释和问答生成规则。

_最强大脑中日pk赛结果_最强大脑中外pk赛

图 4 基准规划管道。该管道将​​数据集统一为标准化格式和语义空间,以确保一致的处理

VSI-基准评估

我们对来自不同模型系列的 15 个支持视频的 MLLM 进行了基准测试。

在闭源模型中,他们评估了-1.5和GPT-4o。在开源模型中,他们评估了 ViLA、LLaVA- 和 LLaVA-NeXT-Video 模型。

所有评估均在零样本学习设置中进行,使用默认提示词和贪婪解码来确保可重复的结果。

使用多项选择答案 (MCA) 准确性或研究人员对数字答案 (NA) 任务的平均相对准确性 (MRA) 来评估任务。

最强大脑中外pk赛_最强大脑中日pk赛结果_

基线包括随机选择和基于频率的选项选择,以识别由于分布偏差而带来的性能增益。

此外,他们还评估了人类在 400 个问题(VSI-Bench tiny)中随机抽样的子集上的表现,并将其与 -1.5 Pro 进行比较。

-结果

结果表明,人类评估者的平均准确率达到 79%,比最佳模型高出 33%,并且在配置和时空任务上的表现接近完美(94%-100%)。

然而,在需要精确估计的测量任务上,这种差距缩小,MLLM 在定量任务中表现出相对优势。

在闭源模型中,-1.5 Pro 表现出色,尽管仅接受了 2D 数值数据的训练,但在绝对距离和房间大小估计等任务中,其性能显着优于随机基线,接近人类水平。

性能最好的开源模型如LLaVA-NeXT-Video-72B和LLaVA--72B的性能也非常好,仅比-1.5 Pro低4%-5%。

然而,大多数开源模型(12 个中有 7 个)都低于随机基线,暴露了视觉空间智能的巨大缺陷。

最强大脑中外pk赛__最强大脑中日pk赛结果

表1 VSI-Bench的评估结果。左:深灰色代表所有模型中最好的结果,浅灰色代表开源模型中最好的结果;右:人类结果、两个闭源模型和前 3 个开源模型

-盲测

最强大脑中外pk赛__最强大脑中日pk赛结果

研究人员将 MLLM 的性能与“随机级别(基于频率)”和“禁用视觉模式”结果进行了比较,对六个顶级模型(三个开源模型和三个闭源模型)进行了平均。

“启用-禁用”模式的持续改进和“禁用-随机”模式的普遍退化凸显了视频输入对 VSI-Bench 的重要性,因为禁用视觉模式的模型性能低于随机水平。

然而,MLLM 在绝对距离估计、路径规划和相对定向等任务上很难超过随机水平,这反映了这些任务的固有难度。

有趣的是,禁用视觉模式的模型在对象大小任务上的表现明显优于机会,这可能是因为常识知识已融入到语言模型训练中。

最强大脑中日pk赛结果_最强大脑中外pk赛_

图 5 视觉启用(有视频)、视觉禁用模式(无视频)和随机级别(基于频率)之间的比较

在太空中,MLLM 如何用语言思考

为了更好地了解模型成功或失败的时间和原因,并阐明它们所拥有的视觉空间智能的各个方面,该团队研究了 MLLM 如何在空间语言中思考。

在成功的示例中,该模型展示了先进的视频理解能力,提供准确的时间戳描述和正确的逐步推理过程。

全局坐标系的使用表明MLLM可以通过整合空间上下文和推理来构建一些隐式世界模型。

在错误的情况下,模型无法在第一视角和客观视角之间进行转换。由于依赖第一人称视角而对视频序列的错误解释导致错误的空间推理。

最强大脑中外pk赛__最强大脑中日pk赛结果

图6 MLLM在自我解释中展示了它的思考方式

-错误分析

对 VSI-Bench tiny 上表现最好的 MLLM 的错误分析表明,主要有四种错误类型:视觉感知、语言智能、关系推理以及第一视角和客观视角之间的转换。

图 7 显示,71% 的错误源于空间推理,尤其是在理解距离、大小和方向方面。

这表明空间推理仍然是提高VSI-Bench上MLLM性能的关键瓶颈。

最强大脑中日pk赛结果_最强大脑中外pk赛_

图 7 按类型划分的人为错误分析

发现1:空间推理是MLLM在VSI-Bench上性能的主要瓶颈

- CoT方法在视觉空间任务中的局限性

团队研究了三种提示词技术——零样本CoT(Zero-Shot CoT)、自洽CoT(Self-with CoT)和思维树(ToT),以提高MLLM在VSI-Bench上的推理能力。

令人惊讶的是,所有三种方法都会导致性能下降(见图 8),零样本 CoT 和 ToT 导致平均性能下降 4%,而具有自我一致性的 CoT 比基线低 1.1%。

尽管由于任务顺序和绝对距离估计任务中的语言错误减少而略有改善,但房间大小和物体大小任务的性能显着下降,在 8% 到 21% 之间,这表明鼓励模型做出更多推断是不可行的。不仅不可靠,甚至可能有害。

最强大脑中外pk赛__最强大脑中日pk赛结果

图8 与基线相比CoT、自我一致性和思维树的相对改进

同时,如表2所示,零样本CoT在通用视频理解基准上实现了1.6%的性能提升。

_最强大脑中外pk赛_最强大脑中日pk赛结果

表 2 -1.5 Pro 在 500 个问题子集上的 CoT 表现

发现 2:虽然言语提示技术在言语推理和一般视觉任务中很有效,但它们通常不利于空间推理。

从视觉上看,MLLM 如何看待空间

最强大脑中日pk赛结果__最强大脑中外pk赛

当人类进行空间推理时,他们会下意识地建立空间的心理模型。

那么MLLM是如何记住这个空间的呢?

- 通过认知图进行检测

该团队利用 Tip-1.5 Pro 根据视频输入预测 10×10 网格中对象中心位置的性能,评估了 MLLM 创建认知地图(空间表示框架)的能力。

测量精度取决于预测物距与真值 (GT) 图的偏差的比较。一个网格单元内的任何偏差都被认为是正确的。

结果表明,该模型在定位近距离物体时达到了64%的准确率,展现出强大的局部空间感知能力。

然而,当距离变大时,模型变得困难,这也反映了从离散视频帧构建全局空间模型表示的挑战。

_最强大脑中外pk赛_最强大脑中日pk赛结果

图 9 左:MLLM 和真实值 (GT) 认知图的可视化。右:MLLM预测的认知图局部性

发现 3:在记忆空间时,MLLM 在其“大脑”中根据给定的视频形成一系列局部世界模型,而不是统一的全局模型。

-通过认知图提高距离推理

该团队通过 Tip-1.5 Pro 根据视频输入生成地图并使用它们回答相对距离问题,从而探索认知地图是否可以增强 MLLM 的空间推理能力。

结果表明,使用模型本身生成的地图可以提高10%的准确率;使用地面实况(GT)地图,精度提高了20%-32%,凸显了准确的心理图像在增强全局场景拓扑方面的价值。

这表明认知映射是改善 MLLM 视觉空间推理的一种有前途的方法。

最强大脑中日pk赛结果__最强大脑中外pk赛

表3 基于认知图谱的相对距离任务分析

距离LLM到“既理解又生成”视觉内容还有多远?

无独有偶,谢赛宁和LeCun团队刚刚提出了一种新的多模态理解和生成模型——。

简单来说,与视觉理解任务联合训练时,只需要极少量的生成数据就可以激发LLM的视觉生成能力。

最强大脑中外pk赛__最强大脑中日pk赛结果

论文地址:

通讯作者: 童刘

在这项工作中,团队将视觉指令微调扩展为视觉预测指令微调(VPiT)——允许 LLM 预测视觉和文本标记,而不需要对模型架构进行重大修改或额外的预训练。

其中,有以下三个主要发现:

1、生成和理解是相辅相成的。实验结果表明,随着模型理解能力的提高,视觉生成自然会出现——在联合训练的情况下,只需要 200K 样本即可实现这一点,而传统方法通常需要数百万样本。

2.视觉预测指令微调(VPiT)扩展了现有的指令微调,使其能够同时预测连续视觉标记和离散文本标记。这样,在保持指令微调效率的同时,可以显着增强模型的多模态能力。

3. VPiT 训练的模型表现出一个有趣的“模态统一”现象——模型不仅可以使用大型语言模型的知识来生成,而且可以在生成视觉标记之前进行隐式推理。

_最强大脑中外pk赛_最强大脑中日pk赛结果

LLM已经非常接近成为“统一模式”了!

参考:

本文来自微信公众号“新智元”,编辑:浩声,36氪授权发布。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2