Advertisement

论文阅读《Deep Long-Tailed Learning: A Survey》综述(一)

阅读量:
复制代码
      Deep Long-Tailed Learning: A Survey

深度长尾学习被视为视觉识别领域最具挑战性的问题之一 ,其核心目标在于从大量遵循长尾类分布的图像数据中训练出性能卓越的深度模型

然而,在现实世界中的视觉识别任务中 ,长尾类不平衡问题是一个常见的挑战 ,因为它往往限制了基于深度网络的传统识别模型的实际应用效果

针对这一难题 ,近年来的研究者们进行了大量的探索与尝试 ,并在深度长尾学习领域取得了令人瞩目的进展

基于上述分类框架 ,我们对当前几种主流算法进行了系统性的实验验证

最后部分我们将重点讨论深度长尾学习技术的实际应用价值所在,并对未来研究方向提出一些具有前瞻性的思考与建议** 。

1 INTRODUCTION

通过多层处理结构的数据模型进行深度学习的学习过程,在计算机视觉领域展现出了令人瞩目的成就. 深度学习的成功关键在于大规模数据资源的有效获取, GPU技术的进步以及先进网络架构的发展. 基于对数据表征质量的高度关注, 深度神经网络已在多个视觉判别任务领域取得显著成效, 包括图像分类(如:ResNet-50)、物体检测(如:YOLOv3)以及语义分割(如:U-Net)等.

在现实世界的应用场景中常见地呈现长尾类分布模式**(即少数几个类别占据大量样本点)** ,其中仅有少数几个类别与丰富数据相关联**([13]-[16])** 。然而**,** 这种基于数据量的类别不平衡问题会显著影响基于深度学习的方法性能**([20])** 。如图所示**,** 训练后的模型往往表现出对拥有丰富数据支持头部类别的偏好**([17]-[19])** ,这会导致在数据稀缺的情况下尾部类别的识别效果显著下降**([24, 25, 26, 27])** 。由此可见**,** 基于经验风险最小化的标准训练方法难以应对现实世界中存在的类别不平衡问题**([8, 9, 10])** 。具体而言**,** 这种方法无法有效处理以下领域中的挑战:人脸识别系统(如-[21-22]-)、物种分类任务(如-[23-24]-)、医学图像诊断(如-[25-26]-)以及城市场景的理解与无人驾驶飞行器检测(如-[27-?]-)。

在这里插入图片描述

图1. 长尾分类任务中各类别分布情况(例如该数据库中的物种分类问题[23])包含大量细粒度类别(共8,000多个)。在从这些样本中学习时,头部类别所对应的特征空间通常更为丰富,在分类器的决策边界上则会呈现出倾向于优先识别占优类别的特性。

针对长尾类数据集在分类任务中常面临类别分布不均衡的问题,在过去几年里展开了系统的深入研究[15], [16], [28], [29], [30]。然而该领域的发展速度令人瞩目却并未形成一套完整的回顾与分析体系以系统性地总结现有成果为此我们致力于系统性地回顾与分析当前关于深度长尾学习的主要研究成果并整理出一套完整的评价体系

如图2所示,在现有方法的主要技术贡献基础上,在论文中将其分为三种类型:类别再平衡、信息增强与模块优化。这些类型进一步划分为以下九个子类别:重新采样、成本敏感学习、对数损失函数、跨域学习、数据预处理技术、特征表示优化、分类器设计部分、解耦训练策略以及集合学习框架。通过文献综述发现,在现有研究的基础上引入了一种新型评估指标——相对准确度指标,并对其所涵盖的多个最新研究方法进行了深入分析与比较。在应用部分中列举了几项深度长尾学习的实际应用场景,并对未来研究方向进行了初步探索。

在这里插入图片描述

图2. 现有深度长尾学习方法的轴心。
我们将本次调查的主要贡献总结如下。

  • 经研究团队考察,在深度长尾学习领域尚属首次进行系统的整体性研究。
  • 我们运用新的相对精度指标对现有先进方法在处理长尾类别失衡方面的效果进行了系统分析,并展开了基于数据集的实证研究。
  • 我们聚焦于当前方法创新的主要目标,并探索并提出了一系列新设想的方向和课题。

本次研究的其余内容将以以下方式进行组织:
第一部分介绍研究背景及核心概念;
第二章不仅明确了问题的核心定义,还综合运用了现有的数据资源、评估标准以及网络架构;
第三部分系统性地分析和总结了当前最前沿的长尾学习方法;
在第四部分中,我们通过引入新的性能评估指标对几种最新算法进行了实证研究;
第五部分深入探讨了深度长尾学习在实际应用中的潜在应用场景;
第六部分则聚焦于未来研究的主要发展方向与趋势;
第七部分中对本次研究的主要发现与结论进行了系统性的总结与归纳。

2 PROBLEM DEFINITION AND BASIC CONCEPTS

2 问题定义和基本概念

2.1 Problem Definition

深度长尾学习的目标是从具有长尾类分布的训练数据集中训练深度神经网络模型 ,其中一小部分类拥有丰富样本数量而其他大部分类仅与少量样本相关联(如图1所示)。
设{xi, yi}ni=1为长尾训练集,则对于每个样本xi都对应一个类别标签yi。总共有K个类别,则训练集总数n = Σ_{k=1}^{K} n_k ,其中n_k表示第k个类别的样本数量;π被定义为标签频率向量,在此情况下πk = n_k / n 表示第k个类别的标签频率。
在不失一般性的情况下,在文献[31, 32]中提出的一个常见假设是将类别按照数量从多到少排序(即如果i₁ < i₂,则n_i₁ ≥ n_i₂ ,且n₁ ≫ n_K),然后将不平衡比定义为n₁ / n_K 。

这项任务因两大关键问题而显得具有挑战性:
(1)由于数据分布不均衡的原因,在深度学习模型中通常会出现头部类别占优的现象,尾部类别则难以得到有效识别;
(2)尾部类别样本匮乏导致针对该分类任务进行深度学习建模时面临诸多难题。**
这类基础性的任务广泛应用于多个视觉感知领域。

2.2 Datasets

在这里插入图片描述

长尾数据集的统计。"Cls. "表示图像分类;"Det. "代表物体检测;"Seg. "指实例分割。

近年来

针对长尾图像分类任务而言

针对长尾物体检测与实例分割任务,在研究领域内已有L VIS[36]这一方法被广泛应用,并能够准确标注边界框与遮挡区域作为基准方法;对于多标签图像分类问题而言,VOC-LT[37]与COCO-LT[37][49-50][51-52][58-59][68-69][74-75][81-82][89-90][96-97][104-105][112-113][119-120],这些基准均源自于PASCAL VOC 2012与COCO等知名数据集,并已被证实具有良好的性能表现;最近,研究者们又提出了一个全新的未剪辑大型视频数据集VideoLT,该数据集包含约一千三百个小时的真实世界视频内容,旨在为长尾视频识别应用提供丰富的训练样本

2.3 Evaluation Metrics

在长尾学习中,在报告各类的整体表现的同时也会关注头部、中间以及尾部类别各自的性能表现。不同任务下使用的评估指标各不相同。例如,在长尾图像分类任务中被广泛应用的是Top-1准确度(或错误率),而平均平均精度(mAP)[44]常用于评估长尾物体检测与实例分割性能。此外,在进行长尾多标签图像分类时也会采用mAP这一指标;视频识别领域则综合运用了Top-1准确率与mAP来进行评估。

2.4 Mainstream Network Backbones

目前常用的长尾学习方法均基于通用的网络骨架构建,在各个领域中这些网络骨架的具体表现有所不同。

2.5 Long-tailed Learning Challenges

在长尾学习领域中备受瞩目的两项著名挑战赛是iNat[23]和LVIS[36]。

2.6 Relationships with Other Tasks

我们探讨了长尾学习与类别不平衡学习、少样本学习以及域外泛化之间的关联。这些关联在基于深度的学习框架与非基于深度的学习框架之间表现一致。

类平衡学习[5], [49]试图从类平衡的样本中训练模型。总的来说,长尾学习可以被看作是类平衡学习中的一个更具体、更具挑战性的子任务。相比之下,在类平衡学习中,类的数量可以非常少(如2个),少数类数据的数量也不一定少;而在长尾学习中,类的数量很多,尾部类的样本往往非常少。

微数据学习][50], [51], [52], [53]的主要目标是从标注数量有限(如1或5个)的数据中训练模型。

域外泛化研究中的核心概念涉及训练集与测试集的经验分布存在差异的现象。这种差异性主要体现在以下几个方面:首先涵盖的数据边际分布不匹配问题(包括领域适应相关的研究方向),其次涵盖的类别分布不匹配问题(如长尾学习及其相关扩展方向)。此外还需要考虑上述两种情况的结合应用场景。从系统性研究的角度来看,在这一框架下长尾学习问题可被视作一种特殊的领域外泛化应用形式。

3 CLASSIC METHODS

如图2所示,在现有研究的基础上按照深度长尾学习方法进行了系统分类与分析。具体而言,在这一框架下主要包含以下几大类研究方向:首先是类别再平衡相关的探索工作,在该领域的主要研究内容又可分为重采样技术、成本敏感学习以及对数调整等三种典型方法;其次是信息增强方面的相关研究工作,在这一部分主要涵盖了转移学习与数据增强两种基本实现路径;最后是模块改进相关的创新性研究工作,在该方向下我们主要包括表示学习技术发展、新型分类器设计策略构建以及解耦训练思想应用等多个具体研究分支。通过这种方法论框架下我们整理归纳并总结了现有相关算法的主要特点与创新点,并在此基础上展开深入探讨

3.1 Class Re-balancing

在长尾学习框架下,类的均衡分配是一个关键策略。它旨在通过调整重采样策略来实现类别样本数量的均衡分布。该过程主要包括两个主要步骤:首先通过重采样方法优化各类样本的数量;其次采用一种基于损失函数的加权策略以及对分类器输出进行校准的技术。

3.1.1 Re-sampling

基于统计学视角而言, 重新取样技术已成为解决类别不平衡问题的主要方法之一[32][34][112][113][114][115][116]. 其中最常见的重采样方法包括随机过采样(ROS)和随机欠采样(RUS). 这些技术旨在通过调整样本分布来平衡各类别. 其中, ROS 通过重复尾部类样本来增强其表现, 而 RUS 则通过有目的地去除头部类样本来减少数据量. 然而, 在类别极度失衡的情况下, ROS 易导致尾部类别过拟合, 可能削弱头部类别在模型中的表现; 相反, RUS 则可能使模型对头部类别产生较大偏差. 最近的研究表明, 针对长尾分布的学习已逐渐放弃传统的随机重采样策略, 并转向开发多种新型抽样方法.

类平衡重采样 作为一种重要的数据预处理技术,在计算机视觉领域得到了广泛应用。该方法主要针对长尾分布数据集中的类别不平衡问题进行了深入研究,并提出了多种采样策略以提升表示学习的效果。具体而言,在Decoupling [32]的研究框架下,我们比较分析了四种典型的采样策略:基于经验的实例平衡抽样、基于经验的类平衡抽样、基于平方根函数的变形形式以及渐进式的插值优化方法。其中,在基于经验的实例平衡抽样的情况下(即平方根采样的机制是实例平衡采样的一种变形形式),每个类别的样本被均匀地分配到训练集中;而在渐进式插值框架下(即渐进式插值是一种动态调整的方法),通过逐渐增加类别间样本数量的比例差异来实现更为均衡的分布效果。这种多维度的对比实验结果表明,在面对类别不平衡的问题时(即面对长尾识别任务时),通过合理选择不同的重采样策略能够显著提升模型的表现能力(即提高模型识别小样本类别的能力)。

全部评论 (0)

还没有任何评论哟~