基于Transformer的目标重识别研究全面回顾与未来展望:从图像/视频到跨模态与特殊场景

   日期:2024-12-25     来源:网络整理    作者:二手钢材网    浏览:248    评论:0    
核心提示:最先进的Re-ID方法在多个动物数据集上的评估结果

【简介】研究人员对Re-ID进行了全面的回顾和深入分析,针对特殊的Re-ID场景,提出了基线,设计了动物Re-ID的标准化基准测试,为未来的Re-ID提供了新的手册。身份识别研究。

物体重识别(Re-,简称Re-ID)旨在跨时间、跨场景识别特定物体。

近年来,基于Re-ID的Re-ID改变了该领域长期以来由卷积神经网络(CNN)主导的格局,不断刷新性能记录并取得重大突破。

与以往基于CNN和有限目标类型的Re-ID综述不同,来自武汉大学、中山大学、印第安纳大学的研究人员全面回顾了近年来不断增长的Re-ID应用研究,并深入分析了Re-ID的优势。 。总结了四个广泛研究的Re-ID方向的应用,并将动物添加到Re-ID目标类型中,揭示了该架构在动物Re-ID应用中的巨大潜力。

_综述格式字体等_全面从严治党综述

论文地址:

项目地址:

_综述格式字体等_全面从严治党综述

架构方法打破了 CNN 架构性能记录

研究背景

以优异的性能满足各种Re-ID任务的需求,提供强大、灵活、统一的解决方案。

研究人员将现有工作分为基于图像/视频的 Re-ID、数据/注释限制的 Re-ID、跨模态 Re-ID 和特殊 Re-ID 场景,详细说明了解决这些领域的各种挑战。当时所展现的优势。

考虑到无监督 Re-ID 的流行趋势,研究人员提出了一个新的基线,以在单模态/跨模态任务中实现最先进的性能。

全面从严治党综述__综述格式字体等

一般 Re-ID 流程

针对动物Re-ID这一尚未开发的领域,研究人员还设计了标准化基准测试并进行了广泛的实验,以探索该任务的适用性并促进未来的研究。

最后,讨论了大模型时代一些重要但尚未深入研究的开放问题。

Re-ID在图片/视频中的应用

依托层中的注意力机制,具有全局、局部和时空关系的通用建模能力,有助于在图像/视频Re-ID任务中轻松提取全局、细粒度和时空信息。

图像重识别中的应用

1.架构优化:设计特殊的架构,如金字塔结构、层次聚合等,或者改进注意力机制。

2. Re-ID具体设计:利用视觉注意机制和图像块嵌入的特点来捕获局部判别信息。某些关键信息的解耦是通过 中的编码器-解码器结构来实现的。架构设计是根据不同目标类型的结构先验和任务特征进行的。

_全面从严治党综述_综述格式字体等

图像 Re-ID 方法设计的不同架构

Re-ID在视频中的应用

1.后处理的应用:许多应用的视频Re-ID方法都采用混合架构,首先使用CNN模型提取特征,然后使用该模型进行进一步处理。通过自注意力机制,捕获序列中的长期依赖性和上下文信息。

2.纯架构:为了克服混合架构中CNN对远距离信息获取带来的限制,一些研究尝试探索纯架构在视频Re-ID中的应用。

数据/注释受限重识别

为无监督学习提供更多可能性。为数据或标签约束的 Re-ID 任务提供更强大和更通用的模型的广泛自监督预训练。无监督Re-ID通常用于标记受限场景,而数据约束主要通过领域泛化Re-ID来解决。

无监督 Re-ID 中的应用

1.自监督预训练:无监督Re-ID应用的一种研究重点是自监督预训练。该模型对于大规模无标签数据具有高度的可扩展性,其结构的灵活性提供了更加多样化的自监督范式。

2.无监督域适应:无监督域适应(UDA)问题受到的关注有限。对于行人重新识别,Wang 等人。依赖于实现不同身体部位之间的细粒度域对齐。对于车辆重新识别,一项工作通过联合训练策略自适应地关注车辆在每个领域的判别部分。

跨模态Re-ID应用

提供统一的架构来有效处理不同模式的数据。多头注意力机制聚合了各种特征空间和全局上下文中的特征。高度适应性的编码器-解码器架构可容纳不同类型的输入和输出。因此,特别适合在跨模态Re-ID中建立跨模态关联,促进多模态信息的融合。

可见光-红外 Re-ID 旨在将白天的可见光图像与夜间的红外图像进行匹配。由于红外图像缺乏颜色和照明条件,视觉可以更好地捕捉模态不变的特征并且更加鲁棒。视觉结构及其注意机制可以轻松地在块级别建立局部跨模态相关性。现有的可见光-红外Re-ID方法侧重于学习模态共享特征,将特征分解为模态特定特征和共享模态特征,并在特征级别进行模态对齐。

文本图像重识别是一种跨模态检索任务,根据文本描述识别图像库中的目标。作为多模态应用架构的里程碑,对比语言-图像预训练(CLIP)等大规模多模态预训练模型在该领域取得了重大进展。最近,CLIP 已成为下游文本图像 Re-ID 任务的强大工具。

草图图像 Re-ID 和骨架 Re-ID 都是跨模态匹配任务。前者基于艺术家或业余爱好者绘制的草图,后者基于姿势估计生成的骨架图。它擅长提取全局特征,并且在草图图像 Re-ID 中表现良好。对于骨架Re-ID,可以利用骨架点组成的图结构进行全关系建模。

特殊Re-ID应用

在实际应用需求的驱动下,Re-ID领域出现了一系列特殊的应用场景。它已初步应用于这些复杂的挑战,表现出出色的可扩展性和适应性。

遮挡Re-ID:遮挡Re-ID场景中,图片中的识别目标被部分遮挡,难以完整提取身份信息。近年来,基于该场景的方法取得了显着的效果,其核心策略包括提取局部区域特征。

换衣服Re-ID:在长期的Re-ID场景中,行人可能会以未知的方式换衣服,以服装外观为主的判别性特征表示将失效。李等人。在Re-ID场景中评估了不同的特征提取骨干网络,该架构与CNN相比表现出显着的性能优势。

以人为中心的任务:通用的以人为中心的模型旨在将包括行人检测、姿态估计、属性识别和人体解析在内的多个与人类相关的任务集成到同一框架中,从而相互促进并提高Re-ID等任务的性能此类下游任务。

行人检索:行人检索是一种端到端的方法,通过多任务学习同时解决行人检测和Re-ID目标冲突的问题。将多尺度架构引入行人检索方案可以实现查询级别的实例级匹配。

Group Re-ID:Group Re-ID 利用群组中的上下文信息来匹配同一群组中的个体,面临群组成员变更、布局变更等挑战。传统方法在位置建模方面存在缺陷,所利用的位置嵌入机制可以更好地处理组级布局特征。

无人机Re-ID:与固定摄像机相比,无人机的高度和视角变化很快,导致图像更加复杂。在分析鸟瞰图像中的车辆和行人时,显着的边界框尺寸差异和物体方向不确定性是关键挑战。除了纯粹的无人机视角Re-ID之外,还有关注空中和地面视角跨域匹配的研究。

综述格式字体等_全面从严治党综述_

特殊Re-ID场景

新基线

研究人员提出了单模态/跨模态传统无监督 Re-ID 基线。

_全面从严治党综述_综述格式字体等

无监督的 Re-ID 基线

单模态无监督Re-ID:研究人员在无监督训练过程中设计了补丁级掩模增强策略。在数据增强过程中,使用一系列图像块来屏蔽部分图像,并在训练过程中建立原始特征与屏蔽特征之间的对应关系,作为监督信号来指导模型学习。

跨模态无监督 Re-ID:对于可见光-红外跨模态行人 Re-ID,研究人员设计了一种双流结构,包括两个用于特定模态的补丁嵌入层和一个模态共享。为了进一步提高模态的泛化能力,在可见光通道中引入随机通道增强作为额外输入,实现联合训练。

实验结果分析:对于单模态无监督 Re-ID,其性能可与当前最先进的方法相媲美。现有的先进跨模态 Re-ID 方法大多基于 CNN,需要复杂的跨模态相关性设计。他们通过简单的设计在多个可见红外 Re-ID 数据集上实现了最先进的性能。

_综述格式字体等_全面从严治党综述

表1 基于CNN/有监督/无监督方法的实验结果

综述格式字体等__全面从严治党综述

表2 RegDB和SYSU-MM01上可见光-红外跨模态基线的实验结果

动物重新识别

研究人员特别讨论了动物Re-ID领域的研究现状,总结了近年来基于深度学习的动物Re-ID数据集和动物Re-ID方法,制定了统一的动物Re-ID实验标准,并在此背景下评估了结果。条件下使用的可行性将为今后的研究奠定坚实的基础。

_综述格式字体等_全面从严治党综述

近年来动物Re-ID数据集

动物重新识别方法

基于全局图像的方法:许多现有研究借鉴行人重新识别的传统方法,将完整的动物图像输入深度神经网络以获得可靠的特征表示。

基于局部区域的方法:一些工作在数据收集和特征提取阶段关注动物的关键部位,例如牛头、象耳、鲸尾和海豚鳍。

基于辅助信息的方法:Zhang 等人。使用简化的牦牛头部左右方向作为辅助监督信号来加强特征表示;李等人。使用姿势关键点估计将老虎图像划分为多个身体部位进行局部特征学习。

动物重新识别的统一基准

研究人员使用各种先进的通用 Re-ID 方法进行了广泛的动物 Re-ID 实验。实验评估了基于CNN架构的BoT方法和基于架构的方法。基于架构的方法在大多数情况下表现更好。该实验证明了动物Re-ID应用的可行性和巨大潜力。

_综述格式字体等_全面从严治党综述

最先进的 Re-ID 方法在多个动物数据集上的评估结果

未来展望

Re-ID与大语言模型的结合

将大语言模型(LLM)与Re-ID任务深度结合正在成为热门的研究方向。通过生成或理解视觉数据的文本描述,LLM可以在细粒度语义提取、无标签数据利用、模型泛化能力提升等方面为Re-ID提供强有力的支持。

通用Re-ID大模型构建

满足多模态、多目标的实际应用场景是未来Re-ID的重要需求。它在多模态数据融合和大模型训练方面具有突出的能力,可用于同时处理视觉、文本甚至更多样化的信息,从而建立模态无关、任务驱动的通用Re-ID模型。统一。

优化高效部署

视频监控、智能安防等场景需要实时、轻量级部署。他们需要减少计算开销,同时保持稳健性。将通用预训练模型的知识有效迁移到具体的Re-ID任务中,应对大规模动态更新中的灾难性遗忘问题,也是未来需要解决的问题。

参考:

本文来自微信公众号“新智元”,编辑:LRST,36氪经授权发布。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2