论文阅读《Deep Long-Tailed Learning: A Survey》综述(二)
4实证研究
本节对现有长尾学习方法进行实证研究。在此基础上我们提出了一种新型评估标准
4.1新颖的评估度量
长尾学习的主要目的是解决类别不平衡问题以提升模型性能水平。传统评估标准通常基于top-1测试精度(记为At)来衡量长尾方法的效果,并比较不同方法在处理类不平衡方面的表现。然而,在实际应用中由于类别不平衡的影响外还存在其他因素可能导致对方法优劣的判断出现偏差例如集成学习或数据增强等长尾方法虽然能够提高模型性能但这种提升可能来源于缓解类不平衡而非改进网络架构或数据质量为此我们需要一种新的度量标准以更客观地评估长尾学习的效果。为此我们首先定义经验上参考精度Au = max(Av, Ab)其中Av是在平衡训练集上计算的标准精度而Ab是在具有相应长尾方法的平衡训练集上的平衡精度Au取两者中的较大值这样定义的Au能够排除除类别不平衡外其他潜在因素的影响随后我们定义相对准确度Ar = At/Au其中At是当前方法在top-1测试中的表现而Au则是通过上述定义得到的经验上参考基准值
4.2实验设置
我们接着介绍实验设置。
数据集 。基于广泛认可的ImageNet-LT [15]开展实验研究,在该基准长尾数据集中包含了丰富的分类信息与高度不均衡分布特征。鉴于其包含K=977个大规模类别以及显著的大样本不均衡(I_{\text{BE}}=2.99),本研究采用了相应的平衡训练集版本通过[13]中的方法生成作为对比实验的基础数据来源。具体样本数量可参考表\ref{tab:first}所示的数据。在全面评估所有分类任务的基础上,则分别考察了头、中、尾三类群组的表现:其中头群组包含了超过N_{\text{head}}=2,658张图片样本;中间群组则每类约有N_{\text{mid}}=2,658张图片;而尾群组由于样本数量有限仅包含少于N_{\text{tail}}=2,658张图片样本。
基于以下标准选择长尾学习方法:(1)官方源代码需公开可用或易于重新实现;(2)在ImageNetLT平台对其所评价论文的方法进行了性能评估。本文对20种方法进行了系统性评估与实证分析:其中包括基准模型(Softmax),以及一系列基于成本敏感学习的技术(如权重加权型Softmax、Focal Loss[68]、LDAM[18]、ESQL[19]等),此外还有通过对分类器设计进行优化以消除类别混杂的技术(如Decouple-IB-CRT[32]),以及集成学习策略(如BBN[48]等)。这些研究工作的更多技术细节可在第三章中详述。
具体实施细节如下:我们使用PyTorch平台完成所有实验任务。在文献[17]、[31]和[32]的基础上, 采用ResNeXt-50模型作为各方法的主要架构。批量处理大小设定为256, 在优化过程中采用动量因子为0.9, 并结合权重衰减系数为0.0005。同时, 在学习率设置上,默认值表现欠佳时可直接按照原始配置文件或手动微调。此外, 我们选用SGD算法进行模型训练, 并对超参数调节问题则建议参考原始代码或进行人工微调。
在基本数据增强策略的基础上(包括随机缩放至224像素并裁剪、水平翻转、颜色抖动及归一化处理), 我们采用了统一的基础增强方案。而对于基于长尾数据的方法, 则在此基础上增加了额外的数据增强技术
4.3所有类别的结果
表5及图4汇总了各类别的平均性能数据。基于这些结果分析(如表5所示),我们得出了关于该方法整体进展以及与其他方法类型比较的一些初步结论。对所有方法的观察 。如表5所示,在准确度方面表现更为突出的是几乎全部的长尾方法,在分类精度上均优于Softmax基线这一基准模型。这一现象进一步验证了长尾学习策略的有效性。然而,在少数情况下存在例外情况——即Decouple-CB-CRT [32]和BBN [48]这两种特定的方法在性能上略逊于Softmax基准模型。我们推测,在解耦训练的第一阶段采用类平衡采样进行表示学习可能导致Decouple-CB-CRT表现出不佳的效果(更多实验结果可见[32])。至于BBN模型的表现欠佳(基于官方代码实现),可能与其累积学习策略有关——其在早期阶段注重头课的学习,在后期则逐渐将注意力转向尾课部分;最终这种策略导致头部类别的模型精度出现了明显下降(参考表6中的详细数据对比)。
除了准确性这一指标外,在评估长尾方法时我们主要参考了上参考准确度(UA)和相对准确度(RA)这两个重要指标。如表5所示其中大部分方法在普遍获得系数方面与基准模型相当但仍有其他一些方法在普遍获得系数方面表现更为突出例如SSP MiSLAS和TADE等方法就表现得更为出色这些方法的优势不仅体现在缓解了类别不平衡问题上还得益于数据量的增加以及网络架构的优化值得注意的是仅依赖准确性作为评价标准存在一定的局限性因此我们提出的相对准确度(RA)这一新指标应运而生它能够有效弥补仅关注类别不平衡问题所带来的不足例如基于数据混合策略的MiSLAS算法在其90个训练历元下不仅达到了较高的准确性还获得了显著的上参考准确度 UA 这一优势但在90个训练时期下其相对精度却低于平衡Softmax算法这表明即使经过充分训练 MiSLAS 在处理类别不平衡问题方面仍略逊于平衡Softmax 但随着训练历元增加到200个 MiSLAS 的相对精度超过了平衡Softmax 这一结果表明经过充分训练后 MiSLAS 在缓解类别不平衡能力方面确实表现出更强的优势具体更多的实验结果可以在图4 (a c)中找到
虽然最近的一些高精度方法在RA方面表现不佳,但长尾学习的整体发展趋势显示出积极的发展前景(如图4所示)。这种表现趋势表明最近在长尾学习领域的研究确实取得了实质性进展。此外,在当前研究中最好的TADE模型达到了93.0%的准确率(如图4所示),这表明未来还有进一步优化的空间。
注
对不同方法类型的观察 。我们从不同方法类型的角度探讨了表5中的结果。首先,在与基线模型相比时发现:几乎所有的类再平衡(CB)方法均显著提升长尾学习性能;具体而言,在这种方法类型中LADE、Balanced Softmax以及LDAM达到了当前最先进的水平;此外还提出了焦点损失以处理不平衡的对象检测问题[68];然而,在处理极其庞大的长尾类(例如ImageNet-LT中的1000个类别)时该焦点损失效果不佳,并只能带来微小改进;在LDAM中除了采用成本敏感的LDAM损失外还引入了一个延迟的再平衡优化时间表;值得注意的是仅采用LDAM损失而无需延迟方案可能无法达到预期效果;此外如表5所示大多数成本敏感学习方法的上限参考精度存在相同水平差异因此相对精度与绝对精度呈正相关关系(参见图4 (b)));因此这类方法类型的准确性提升能够准确反映其类不平衡程度的缓解情况;在信息扩充(IA)的方法类型中迁移学习(SSP)与数据扩充(RSG)两种技术均有助于缓解长尾类不平衡问题;尽管SSP同样提升了上限参考精度但相对精度提升更为显著这表明性能改进主要源于对类别不平衡的有效处理;鉴于缺乏充足的尾类样本被视为关键挑战之一未来研究仍可通过引入更多信息以进一步探索此类技术潜力;在模块改进(MI)的技术框架下各类别相关技术均有其独特优势:就现有技术而言基于系综的长尾方法TADE [30]以及莱德[17]表现最为突出;尽管集成学习同样提升了上限参考精度但来自处理不平衡方面的性能增益更加显著即相对精度提升了更多(参见图4 (d)))。
