Advertisement

End-to-End Multi-Task Learning with Attention译文 【CVPR】

阅读量:

目录

1简介

2相关工作

3多任务注意网络

4实验

5结论


补充:

密集预测任务 (Dense Prediction)是计算机视觉中的一种常见任务,目标是为图像中的每个像素预测一个值或标签。与分类任务只输出一个全局的类别标签不同,密集预测任务需要生成与输入图像大小相对应的输出结果,保持像素级别的预测细粒度信息。

常见的密集预测任务: 1.语义分割 为每个像素分配一个类别标签(例如背景、车、路、人等);2.实例分割 类似语义分割,但还需要区分同一类别的不同实例(例如区分两辆车);3.深度估计 为图像中的每个像素预测深度值(距离)。4.超分辨率重建 为每个像素预测更高分辨率的像素值。5.边缘检测 为每个像素预测是否属于边缘。应用:物体检测、特征提取。6.人体姿态估计 为图像中每个像素预测人体关键点的热力图。

主要特点

像素级别预测 :输出结果的维度与输入图像一致。

计算复杂度高 :因为需要对每个像素进行预测,通常涉及卷积神经网络(如 U-Net、FCN)。

对上下文信息敏感 :需要结合全局和局部信息,确保模型既能捕获细节,也能理解全局结构。

摘要:

我们开发了一种创新性的多任务学习架构,并成功实现了从不同任务中提取具有区分性的特征注意力。该架构整合了全局特征共享层和任务特定的自适应注意力机制。通过这种架构设计,在多任务场景下能够更加高效地进行信息处理与特征提取,并且具备良好的扩展性与适应性特点。具体而言,在MTAN结构中我们采用了共享计算单元来统一处理各子网络之间的信息交互需求,并通过软 attention 模块对不同子网络进行动态权重分配以优化整体性能表现。这种设计不仅支持端到端训练流程的实现,并且能够在现有的前馈神经网络框架下灵活应用以提升模型泛化能力与效率优势。为了全面评估该方法的有效性与适用性,在图像到图像预测、图像分类等多个典型应用场景下进行了系统性实验研究。实验结果表明:与现有同类方法相比我们的MTAN架构在多任务学习性能方面表现出显著优势;此外其对各类多任务损失函数中的权重参数设置也具有较强的鲁棒性表现

1简介

卷积神经网络 (CNN) 在一系列计算机视觉任务中取得了巨大成功,包括图像分类 [11]、语义分割 [1] 和风格迁移 [13]。然而,这些网络通常被设计为仅实现一项特定任务。对于现实应用中更完整的视觉系统,可以同时执行多个任务的网络比构建一组独立的网络(每个任务一个)更可取。这不仅在内存和推理速度方面更有效,而且在数据方面也更有效,因为相关任务可能共享信息丰富的视觉特征。这种类型的学习称为多任务学习(MTL)[20,14,6],在本文中,我们提出了一种基于特征级注意力掩码的 MTL 新颖架构,它增加了共享互补特征的更大灵活性。与标准的单任务学习相比,在成功学习共享表示的同时训练多个任务面临两个关键挑战:

i) 网络架构(如何实现):多任务学习架构应体现 tasks 的共性与 task-specific 特征。通过这种方式设计网络结构,旨在使网络能够学习到共同的表征以防止 overfitting,并能在不同 task 上展示个性化的特性以防止 underfitting。

ii) 设计用于平衡各任务的 损失函数(怎样分配重要性):多任务损失函数通过为各个任务分配相对应的重要性系数进行加权求和 ,从而实现对所有目标任务的有效学习与均衡优化。这种机制能够合理分配各子任务的学习资源与计算资源,在避免使较易完成的任务占据主导地位的同时保证整体性能均衡提升。为了提高效率和自动化能力,在实际应用中建议采用自动调节权重的方法,并支持不同权重下的稳定性能优化方案。

但是,在现有的机器翻译技术中(MTL),大多数现有方法通常只聚焦于其中一个挑战而对另一个挑战则采用标准方法进行处理。针对本文提出了一种统一框架,在这种框架下首先实现了任务间的共享特征提取,并在此基础上实现了任务特定特征的学习。该网络首先实现了任务间的共享特征提取机制以及针对每个具体任务的独特特征提取方式;从而能够自动生成任务间的共享特征提取机制以及针对每个具体任务的独特特征提取方式;进而能够优化选择不同鲁棒性损失方案的过程

我们提出了一种多任务注意力网络(MTAN),该网络由一个共享网络构成,在其基础上提取所有任务特征的全局特征池。随后,在处理每个具体的任务时并非直接从全局特征池中提取信息而是在共享网络中的每一个卷积块上应用软注意掩码机制以区分不同重要性通过这种方式使得能够自主选择哪些功能被共享以及哪些功能专属性别化的过程来构建高效的架构其参数数量较之于明确划分各子任务的传统多任务架构显著减少[26, 20]

基于任务类型, MTAN 可以适用于各种前馈神经网络架构. 首先, 我们采用 SegNet [1](一种经典的编码器-解码器网络)对 CityScapes 数据集 [4] 进行语义分割和深度估计任务的系统性评估, 然后在 NYUv2 数据集上开发和测试表面法线预测这一更具挑战性的附加任务[21]. 我们还在近期提出的 Visual Challenge 十项全能竞赛 [23] 上使用宽残差网络 [31] 作为主干架构, 系统验证我们的方法以应对 10 个单独的图像分类任务. The results demonstrate that MTAN 的性能优于多个基准模型, 并在多任务学习方面与当前最先进技术相媲美, 同时展现出更高的参数效率优势, 因此能够更加高效地随任务数量进行扩展. 此外, 相对于基准模型, 我们提出了一种新颖的加权方案 Dynamic Weight Average (DWA), 其通过考虑每个任务损失的变化率动态调整各任务权重以提高鲁棒性.

2相关工作 ​​​​​​​

早期一个基于多任务学习(MTL)的设计方案中,每一个任务分支都包含一个网络结构,并通过跨接点机制实现各分支间的特征共享.整体架构显得较为复杂.

多任务学习(MTL)作为一种广泛应用的技术,在机器学习领域取得了显著进展[2,8,6,17]。其与迁移学习(TL)以及持续性学习(PL)之间存在诸多相似性,在计算机视觉领域内亦被证实具有诸多共通特性。该研究方向已被成功应用于解决一系列相关问题:包括跨领域图像分类[23]、人体姿态估计及动作识别[9]等较为复杂的认知科学问题;此外,在深度属性预测、表面法向量估计及语义理解等多个维度上也展现出卓越的能力[20,7]。本研究将重点探讨以下两大核心议题:构建高效的多任务网络架构,并实现各子任务间的均衡共享特征。

大多数计算机视觉多任务学习网络架构主要基于经典的 CNN 架构设计。例如,在[20]提出的十字绣网络中,默认情况下每个任务均配备一个标准前馈网络,并通过十字绣单元实现跨任务功能共享。此外,在[6]的研究中提出了一种自监督方法,默认情况下基于 ResNet101 架构,默认情况下从单个共享网络的不同层学习特征的正则化组合。UberNet [16]则提出了一种图像金字塔方法来处理多个分辨率的图像,默认情况下在共享 VGG-Net [27] 的顶部默认情况下形成额外的特定于任务的层。渐进网络 [26]则采用了一系列增量训练的网络,默认情况下在默认情况下传输知识给各任务之间的知识传输过程进行优化与改进。然而,在[29]提出的CrossStitch Networks以及[31]提出的Progressive Networks等架构中,默认情况下需要大量额外的网络参数,默认情况下随着所涉及的学习任务数量呈线性关系进行扩展与参数计算量增加。相比之下,默认情况下我们的模型只需要每个学习任务的标准参数数量增加大约 10% 即可满足需求,默认情况下显著降低了模型参数规模与计算复杂度的同时保证了相同的性能水平与应用效果,默认情况下展现出更高的效率与优势与适用性 getDefault/default/ default/default/ default/default/ default/default/ default/default/ default/default/ default/default/ default/default/ default/default/ default/default/ default/default getDefault/default getDefault getDefault getDefault getDefault getDefault getDefault getDefault getDefault getDefault getDefault getDefaultgetDefaultgetDefaultgetDefaultgetDefaultgetDefaultgetDefaultgetDefaultgetDefaultgetDefaultgetDefault

探讨多任务学习中特征共享与平衡的关系,在引用文献[20,14]的基础上展开深入分析。多篇研究文献一致认为,在不同数量的任务间进行特征共享时应适当调整权重参数。例如,在多任务学习框架下使用权重不确定性机制[14]是一种有效的策略;这种机制通过结合各单任务的学习不确定性来改进整体性能表现。此外,在优化过程中若能合理分配各子模型的学习资源,则能进一步提升整体性能表现。另一种方法是GradNorm算法[3];该算法通过逐步调整梯度范数来控制模型在各个子模型上的训练动态。值得注意的是;动态任务优先级[10]作为一种替代方案;其通过引入准确性和精度等指标对各子模型的任务难度进行排序;从而实现资源的有效分配。

3多任务注意网络

本文将介绍一种创新性的多任务学习架构——多任务注意网络(MTAN)。尽管这种架构具备高度灵活性并可整合于任意前馈网络体系中,在后续章节中我们将详细阐述其在编码器-解码器网络 SegNet [1] 上的具体实现方法。我们的实验配置支持从图像到图像的密集像素级预测应用,并具体而言包括语义分割、深度估计以及表面法线预测等多个关键模块的应用场景分析。

3.1架构设计

MTAN主要由两部分构成:一个通用基础架构以及K个专为特定任务定制的关注机制组件。通用基础架构可以根据所需任务进行定制设计,并与各个关注机制组件之间建立深度关联关系。各个关注机制组件均包含一组与主架构相互联结的关注模块单元,在处理数据时能够动态地聚焦于关键信息位置。其中,在具体操作层面而言:各个注意模块采用软掩码策略作用于主干架构指定层的位置;同时,在端到端框架下自动生成这一选择机制,并且主干架构能够通过全局聚合提取高度紧凑的有效特征。其中,注意掩码的作用相当于从主干架构中选择特征的关键工具;同时,在端到端框架下自动生成这一选择机制,并且主干架构能够通过全局聚合提取高度紧凑的有效特征。

图 2展示了基于VGG-16[27]网络的详细可视化结果,并具体说明了SegNet编码器的工作原理。其解码器部分与VGG-16架构基本对称,在此框架中,“每个注意力机制单元独立学习一个可调参数化的soft attention mask”,该soft attention mask生成过程依赖于共享特征映射层。“因此,在设计阶段,“我们可以通过统一优化过程来同时学习共享基线模型特征以及各子任务对应的soft attention mask”,以期在多任务联合训练中实现更好的通用性,并各子任务在特定领域表现出更强的专业能力

3.2 任务特定注意力模块

注意力模块主要通过应用软注意力掩码至共享网络中的各特征来实现各特定子网络学习各自相关的特性。我们定义了在共享网络第j个模块中所提取的所有共同表征p(j);而对于每一层i的任务i而言,则拥有各自的注意力遮蔽矩阵a_i(j)。接着利用注意遮蔽矩阵a_i(j)与各共同表征p(j)进行点积运算来提取各自的任务相关特征。

,其中 ⊙ 表示逐元素乘法。

如图2所示,在编码器的第一个注意力机制部分中,默认情况下只采用共享网络提取出的关键信息作为输入来源。然而,在处理块j中的后续注意力机制部分时,则采用了更为复杂的组合方式:其输入由两部分组成:共享特征u(j)以及前一层a^(j−1)i中任务特定特征的结合

此处,在经过非线性激活后进行批量归一化的条件下

注意力掩码经过 sigmoid 激活函数处理后确保 ai(j) 的取值范围限定在 [0, 1] 区间。该方法通过反向传播机制,在自我监督的学习框架下完成训练。当 ai(j) 接近于 1 的情况下(即 ai(j) → 1),此时掩码的作用相当于全连接图(恒等图),此时参与的特征图与全局特征图一致,并且各任务共享所有特征信息。基于以上分析,我们预期所设计的多任务模型性能不低于采用共享参数策略的多任务网络。值得注意的是,在本研究中所采用的共享多任务网络架构仅仅在在网络末端部分进行功能划分,在第 4.3.3 节中展示了证明这一点的结果

3.3模型目标

对于包含 K 个子任务的一般多任务学习问题中,在给定样本输入数据集 X 和各子任务对应的标签向量 Yi(其中 i = 1, 2, ..., K)的情况下,损失函数被定义为:

具体来说,这表示任务损失函数 Li 与任务权重参数 λi 的线性叠加。在本研究中,我们通过实验分析了不同权重方案对多种多任务学习方法的影响。

针对图像间的预测任务,在各个损失函数中我们将输入数据X到一组标签Yi之间的每个映射关系视为一个独立的任务,并对这三个子任务分别进行评估。其中通过神经网络模型获得的预测结果为\hat{Y}, 而真实标签则为Y.

在语义分割任务中,该系统在由深度softmax分类器产生的每个预测类标签上采用逐像素交叉熵损失进行计算。

对于深度估计问题而言,在预测结果与真实值之间采用L1范数来进行评估分析。具体来说,在本研究中我们采用了NYUv2室内场景数据集中的真实深度信息以及CityScapes室外场景数据集中的倒置深度信息作为基准参考依据。这种设置能够通过更精确的方式表示远处物体及其空间关系进而更加清晰地表示远处元素如天空等区域的信息:

针对仅在 NYUv2 数据集中可获得的表面法线,在每个经过归一化的像素区域中与真实图像进行逐元素相乘操作:

对于图像分类任务来说,在这种情况下我们将每个数据集视为独立的任务其中每个数据集代表某个特定领域内的独立分类任务我们对各个独立的任务采用统一的标准交叉熵损失函数进行训练以确保模型能够有效学习并实现准确的分类目标

4实验

在此部分中, 我们针对两种不同类型的特定任务来考察我们所提出的方案: 其中, 在第4.1小节中讨论了一种基于单模态特征提取的一对多预测方案; 同时, 在第4.2小节里探讨了基于深度学习模型的视觉十项全能挑战赛中的一个关键应用——即多元标签分类问题。

4.1.图像到图像预测(一对多)

在本节中,在图像到图像预测任务上对基于 SegNet [1] 构建的 MTAN 方法进行了评估。首先详细介绍了用于验证的数据集,并对比分析了几种基线模型及其性能表现;接着,在第 4.1.3 节中详细阐述了一种自适应加权方法;随后,在第 4.1.4 节中展示了与单任务和多任务基线相比采用各种加权策略后的 MTAN 模型的有效性;在第 4.1.5 节中探讨了该方法在不同复杂度任务下的性能变化情况;最后,在第 4.1.6 节中展示了所学习注意力掩码的具体可视化结果

4.1.1 数据集

CityScapes数据集[4]由高质量街景图像构成。该数据集被应用于语义分割与深度估计两个领域。为了提高训练效率,所有训练与验证图像均统一调整为固定尺寸,即128×256像素大小。该数据集包含19个用于像素级语义分割的类别,并配有真实逆深度标签作为监督信号。在此研究中,我们将深度估计任务与使用3种不同粒度分类(具体为2、7或19类)的任务相结合进行研究,其中7类与19类中的空群组不参与此阶段的学习过程。值得注意的是,与原始CityScapes数据集相比,本研究中所采用的分类体系在类别数量上有所变化:即采用统一背景与前景对象的二分类策略作为基础模型架构,而其他分类体系则基于原有 CityScapes 数据集中相同的分类定义进行构建(详细信息见表1)。在此基础上,我们对第4.1.4节中的7类CityScapes数据进行了多任务学习框架的设计与实现工作;随后将第4.1.5节中的不同粒度分类结果与其对应的注意力图可视化结果进行了系统性对比分析

NYUv2 数据集。**NYUv2 数据集 [21]**由包含 RGB-D 的室内外场景图像组成。我们评估了三个学习任务的表现:[5]中定义的13种语义分割类别、基于Microsoft Kinect深度相机记录的真实深度数据以及[7]中提供的表面法线信息。为了提高训练效率,默认将所有训练和验证图像统一调整为 [288 × 384] 分辨率。与 CityScapes 相比,NYUv2 数据集中的图像具有更强的室内场景特性,这些图像往往具有较大的景别变化,在光照条件上也更加复杂多变,此外每个物体类别的外观在纹理细节和形态特征上也呈现出显著差异性。通过系统性地对比不同数据集的表现,结合不同数量的学习任务以及各类别复杂度的影响因素,我们可以全面评估我们提出的方法在实际应用中的表现水平及其适用范围。

4.1.2 基线

大多数图像到图像多任务学习架构主要基于专门设计的前馈神经网络,并在不同架构的基础上实现;由于这一特性使得它们无法直接根据已有结果进行比较。我们提出的方法具有通用性,并且适用于所有前馈神经网络模型;为了确保公平比较我们采用 SegNet [1] 基础上构建了5种不同的架构(包括2个单任务型和3个多任务型),其中我们将这些作为基准模型进行评估。

• 单任务、一项任务:用于单任务学习的普通 SegNet。

单一任务下使用STAN:在设计过程中采用单一注意力机制(STAN),我们直接采用我们所提出的MTAN模型,并专注于完成单一特定的任务。

在模型架构设计中采用拆分策略以实现多任务学习。具体而言,在最后一层进行拆分操作以便于每个特定任务能够独立生成预测结果。其中Wide版本通过增加卷积滤波器数量实现模块化扩展,而Deep版本则通过增加卷积层深度来提升模型能力。直至Split模块的参数规模达到与MTAN相当或更高水平。

多任务且复杂的场景中,在这种配置下

该研究涉及多个领域与刺绣工艺:其刺绣网络编号为[20],基于一种先前提出的自适应式多元任务学习方案,在SegNet架构上实现了该技术

请注意,在所有基准设计中所采用的设计参数数量不低于我们所提出的MTAN模型所采用的数量,并通过实验验证我们的方法较优的原因在于注意力机制而非仅仅归因于网络参数的增长

4.1.3 动态权重平均

在大多数多任务学习网络中, 若未能实现各任务间的均衡平衡, 则训练多个目标往往会面临诸多挑战, 相关研究已对此问题展开深入探讨[3, 14]. 为了验证该方法的有效性, 我们提出了一种动态权重平均(Dynamic Weight Average, DWA)算法. 借鉴了GradNorm的工作流程, 该算法通过分析各子任务损失的变化速率来动态调整各子任务的重要性程度. 尽管与传统的GradNorm方法相比,DWA的核心优势在于只需关注模型输出层的任务损失值即可完成权重分配, 这使得其实现过程相对更为简便.

使用 DWA,我们将任务 k 的权重 λk 定义为:

wk(·)作为指标,在(0,+∞)区间内量化相对衰减幅度;其中t代表迭代次数变量,T则为温度参数调节任务间权重分配的程度,类似于文献[12]所述.当温度参数T较大时,各任务间的资源分配趋于均衡.特别地,当温度参数T足够大时,λi≈1,即各任务的权重均被均等化.随后,经过Softmax运算后得到的结果将被缩放因子K所缩放,从而保证所有λi(t)之和等于K

在采用我们的实现方案时,在每次迭代周期内对各个时间段内的损失值进行计算,并取其平均值作为整体评估指标。这种方法能够有效地降低随机梯度下降算法所带来的计算误差以及由于数据采样不均匀导致的结果偏差。对于时间步长t等于1和2的情况,在初始权重设定时我们采用了简单的单位权重策略(wk(t)=1),但为了满足特定的应用需求也可以灵活地引入基于先验知识设计的非平衡权重设定方案

4.1.4 图像到图像预测的结果

我们采用了 SegNet 架构对 MTAN 方法进行了性能评估,在图像到图像多任务学习中的应用效果如何?分别采用了 CityScapes 数据集(共7个类别)与 NYUv2 数据集(包含13个类别),对比分析了第4.1.2节所述的所有基准方法。

对于每种网络架构而言,在采用了三种不同的加权策略的基础上展开了实验研究:同等加权方案、基于不确定性的权重分配(参考文献[14])以及我们所提出的DWA方法(其中超参数温度T被设定为2值,并且根据我们的经验发现这一设置适用于所有架构)。值得注意的是,在本研究中并未采用GradNorm[3]这一技术。因为该方法要求在不同基线上人工调整子集网络的权重设置以适应特定架构的需求,并由此可能会影响对各架构公平性评估的整体判断。为此我们选择了Adam优化器[15]来进行模型训练工作,并设置了学习率为1e-4;其中NYUv2数据集采用批量大小为2的设置,在CityScapes数据集上则采用了批量大小为8的方法;在整个训练过程中,在达到40,000迭代后将学习率减半,并持续进行80,000次迭代的操作以完成整个训练任务

表 2 和表 3 分别对 CityScales 和 NYUv2 数据集进行了详细对比分析,在各类架构及不同损失函数加权方案下展示了实验结果。研究进一步揭示了各类架构下的模型复杂度差异,并发现所提出的 MTAN 方法在与 CityScapes 数据集上的基准模型 Dense 的性能相当。然而,在参数规模上其仅为其一半左右,并且显著优于其他所有基准方法。对于更具挑战性的 NYUv2 数据集,在对各类加权方案及学习任务进行评估时,无论采用何种设定组合方式均展现了卓越的表现优势

详细列举了 CityScapes 验证数据集上 7 类语义分割与深度估计的结果。\n#P 展示网络参数数量。\n通过加粗处理展示了多任务架构及权重的最佳性能组合。\n每个任务的最高验证得分均采用方框标示。\n

特别强调的是,在基于自动学习机制下优化注意力掩码以共享特征时展现出更高的效率,在此过程中无需额外设置任何超参数(如列#P),并且即使在特定场景下所用参数数量也远低于传统方案

其次,在采用不同损失函数加权时展现出了显著的效果,并且相比其他方法,在选择加权方案时更具稳定性。无需复杂调整权重即可维持高性能表现。对比Cross-Stitch Network[20]后发现,在图3展示了NYUv2数据集上三个学习任务性能的变化曲线,并从图表可以看出各组权重下呈现出一致的发展轨迹。而对比结果显示交叉缝线网络则表现出明显的行为差异

图3:在NYUv2数据集上的三个任务(语义、深度与法线)的验证性能曲线图中展示了对比实验中采用损失函数加权策略的效果更好。

图 4 呈现了 CityScapes 验证数据集的定性结果。我们能够观察到我们的多任务学习方法相对于普通单任务学习具有显著性优势,在此过程中,对象的边缘更加突出。

4.1.5 任务复杂性的影响

为了深入探讨多任务学习的优势及其潜在应用价值,
我们在 CityScapes 数据集上系统性地评估了不同语义类别数量的表现,
统一设置了深度标签配置。
采用与上一节相同的研究框架进行训练,
并引入了一个基准级多任务框架作为对照,
对比实验结果表明该方法显著优于其他变体。
统一采用了等权重策略进行模型优化。

表 4(左)展示了所有多任务实现以及基于 CityScapes 数据集评估的单任务 STAN 实现。值得注意的是,在仅涉及两类场景时,** 单(task)注意力网络 (STAN) 在所有类别多(task)方法中表现更为优异**,** 因为它们能够以简单的方式充分利用网络参数来完成简单的分类(二类场景)问题。然而,随着分类器复杂性的增加,在 CityScapes 数据集上所有实现的表现相对收益都会提高**,** 这是因为它们能够促进特征共享,从而更加高效地利用可用参数资源以获得更好的结果。**

4.1.6 作为特征选择器的注意力掩码

为了探讨所提出注意力机制的作用,在图 5 中

图5:所构建的网络架构在底层结构中实现了七种语义维度与深度注意力机制提取的特征可视化。为了匹配数据分布的需求,每个图像的颜色经过重新缩放处理。

4.2.视觉十项全能挑战(多对多)

最后,在最近推出的一项综合视觉挑战赛上考察了我们的方法。该挑战由 10 个单独的图像分类任务(即多标签或多类别预测)组成。针对该挑战的表现进行评测时会记录每个子任务的准确率,并按此计算累计分数上限(每项子任务占总分 1,000 分)。关于比赛的具体设置、评测标准以及所使用的数据集等详细信息,请访问 http://www. robots.ox.ac.uk/̃vgg/decathlon/。

表4(右)系统性地展示了所评估挑战的在线测试集结果对比分析

5结论

在此研究中,我们开发了一种新型多任务学习方案——多任务注意力网络(MTAN)。其结构由全局特征池构成,并结合了各独立任务的专用注意力模块。通过端到端的学习机制,该架构能够同时捕获共享特征与特化特征。针对NYUv2和Cityscapes等数据集进行的多项密集预测实验表明,在具有多个图像分类子类别的Visual Decathlon Challenge中表现优异,并且对于损失函数中使用的特定子类权重方案表现出良好的鲁棒性。此外,在参数规模有限的情况下实现了性能上的突破,并且保持了较高的计算效率。

全部评论 (0)

还没有任何评论哟~