本文第一作者杜超群是清华大学自动化系2020级直博生,导师为黄高副教授,曾获清华大学物理系理学学士学位。研究兴趣为长尾学习、半监督学习、迁移学习等模型在不同数据分布上的泛化和鲁棒性,在TPAMI、ICML等国际顶级期刊和会议上发表过多篇论文。
主页:
本文介绍了一篇来自清华大学的关于长尾视觉识别的论文:Long-for-Long。该工作已被TPAMI 2024接收,代码已开源。
本研究聚焦对比学习在长尾视觉识别任务中的应用,提出了一种新的长尾对比学习方法 ProCo。通过改进损失,实现了无限数量对的对比学习,并有效地解决了监督对比学习 ()[1] 对 batch (bank) 大小的固有依赖。除了长尾视觉分类任务外,该方法还在长尾半监督学习、长尾物体检测和平衡数据集上进行了实验,取得了显著的性能提升。

论文链接:
项目链接:
研究动机

对比学习在自监督学习中的成功证明了其在学习视觉特征表示方面的有效性。影响对比学习性能的关键因素是样本对的数量,这使得模型可以从更多的负样本中学习,这在最具代表性的两种方法 [2] 和 MoCo [3] 中的 batch size 和 bank size 上都有体现。然而在长尾视觉识别任务中,由于类别不平衡,增加样本对数量带来的增益会产生严重的边际递减效应。这是因为大多数样本对都是由头类别的样本组成,很难覆盖尾部类别。
例如,在长尾数据集中,如果将批次大小(bank)设置为常见的4096和8192,那么平均每个批次(bank)中分别有212和89个类别,且样本数量少于一个。
因此 ProCo 方法的核心思想是:在长尾数据集上,通过对每类数据的分布进行建模、估计参数并从中采样构建对,保证覆盖所有类别。并且,当样本数量趋于无穷大时,可以从理论上严格推导出损失的期望解析解,从而可以直接将其作为优化目标,避免对对进行低效采样,实现对无穷大对的比较学习。
但实现上述想法还面临几个困难:
如何对每种类型的数据分布进行建模。
如何有效地估计分布的参数,特别是对于样本量较小的尾部类别。
如何确保损失的预期解析解存在且可计算。
其实,上述问题可以通过统一的概率模型来解决,即选择一个简单有效的概率分布来对特征分布进行建模,这样就可以利用最大似然估计来高效地估计分布参数,并计算期望损失的解析解。
由于对比学习的特征分布在单位超球面上,一个可行的方案是选取球面上的 von Mises-(vMF)分布作为特征的分布(该分布与球面上的正态分布类似)。vMF分布参数的最大似然估计有近似的解析解,且只依赖于特征的一阶矩统计量,因此可以高效地估计分布的参数,严格推导损失的期望,从而实现无限个对的对比学习。

图1 ProCo算法根据不同batch的特征来估计样本的分布,通过对无限个样本进行采样,可以得到期望损失的解析解,有效消除了监督对比学习对batch size(bank)的固有依赖。





理论分析
为了进一步从理论上验证ProCo方法的有效性,研究者对其泛化误差界和超额风险界进行了分析。为简化分析,假设只有两类,即y∈{-1,+1}。

分析表明,泛化误差界主要受训练样本数量和数据分布的方差控制,这一发现与相关工作[6][7]的理论分析一致,保证了ProCo loss不会引入额外因素,不会增加泛化误差界,从而从理论上保证了方法的有效性。
此外,该方法依赖于对特征分布和参数估计的某些假设。为了评估这些参数对模型性能的影响,研究人员还分析了 ProCo 损失的超额风险界限,该界限衡量了使用估计参数的预期风险与贝叶斯最优风险(即真实分布参数下的预期风险)之间的偏差。


这表明ProCo损失的超额风险主要受参数估计误差的一阶项控制。
实验结果
作为核心验证,研究者首先比较了不同对比学习方法在不同batch size下的性能,其中包括在长尾识别任务[5](BCL)上基于SCL的改进方法。具体实验遵循(SCL)的两阶段训练策略,即先只用loss进行训练,然后再训练一个用于测试。
下图是在-LT(IF100)数据集上的实验结果,BCL的性能明显受到batch size的限制,但ProCo通过引入各个类别的特征分布,有效地消除了对batch size的依赖,从而在不同batch size下都取得了最佳的性能。

此外,研究者还在长尾识别任务、长尾半监督学习、长尾物体检测和平衡数据集上进行了实验。这里我们主要展示了在大规模长尾数据集-LT和LT-1上的实验结果。首先,在90次训练下,与类似的改进对比学习方法相比,ProCo在两个数据集和两个上都有至少1%的性能提升。


以下结果进一步表明 ProCo 也能从更长时间的训练中获益。在 400 时,ProCo 在数据集上实现了 SOTA 性能,并验证了它可以与其他非对比学习方法相结合,包括 (NCL)。

P.,等人。 2020 年“,”。
Chen, Ting 等人。“的 A for 。”关于。PMLR,2020 年。
他,,等人。“为。” IEEE/CVF 于 2020 年 11 月 1 日和 2021 年 12 月 1 日。
S. Sra,“关于 von mises 的简短注释:以及(x)的快速计算”,2012 年。
J.朱,等人。 “长久以来”,CVPR,2022 年。
W. 等人。“ELM:以及长尾的 logit”,arXiv,2022 年。
AK Menon 等人。“通过 logit 实现长尾”,ICLR,2021 年。


