论文解读-Hybrid Task Cascade for Instance Segmentation
摘要:
Cascade是一种经典的但功能强大的架构设计模式,显著提升了多种任务的表现水平,然而将其成功地应用于实例分割领域仍是一个待解决的关键问题
1.引言
Cascade R-CNN[5]基于目标检测架构展示了良好的性能表现。
Cascade R-CNN的成功得益于两大核心要素: (1)预测过程逐步细化以及(2)训练分布的自适应调整。
相较于基于边界框的AP指标(bbox AP),将Cascade R-CNN与Mask R-CNN[18]进行直接组合时,在mask AP上的提升较为有限。具体而言,在 bbox AP 方面实现了 3.5% 的提升,在 mask AP 方面则实现了 1.2% 的提升(见表 1)。一个关键的原因在于不同阶段掩模分支间的相互作用不够优化。在后期阶段中,mask分支仅能受益于更为精确的边界框定位效果,并未直接参与后续的信息传递过程。
HTC的核心思想是通过在每个阶段结合级联和多任务来优化信息流,并结合空间环境以进一步提高准确性。具体而言,在整个系统中我们设计了一个级联管道用于逐步细化问题细节。在这一过程中,在每个步骤中都会进行边界盒回归与掩码预测的协同工作——这些操作均采用多任务处理的方式完成。此外,在不同步骤之间设置了直接连接机制:各阶段的掩模特征会被嵌入到下一个阶段作为输入(如图2所示)。这种设计不仅加强了任务之间的信息交互机制,在各个细化环节也能实现更为精准的操作,并最终提升整体预测的准确性水平。
在目标检测任务中,在场景中的上下文信息也提供了重要的提示。例如,在模型中推断出类别标签以及物体尺寸信息等关键参数后,在后续处理中我们引入了一个用于像素级分割任务的全卷积模块。这个模块不仅能够提取前景实例所包含的丰富语义信息,并且也能有效捕捉背景区域所蕴含的空间关系信息,在一定程度上弥补了边界框定位与实例遮挡mask之间的不足。研究结果表明,在模型架构中适当加入空间背景特征能够显著提升模型对复杂场景的理解能力
HTC相对容易实现,并且支持端到端的训练流程。在经过严格考验的COCO基准数据集上(具有高度复杂性和多样性),其mask AP指标分别较mask R-CNN和Cascade mask R-CNN等基准模型提升了2.6%和1.4%。通过采用性能更为优异的核心主干架构以及一系列常用组件(包括可变形卷积模块、多尺度训练与测试框架以及模型集成策略),我们在测试开发数据集上的mask AP达到了49.0,并较2017年COCO挑战赛冠军方法[28]提升了约2.3%。
主要研究成果 如下:
(1)提出了混合任务级联方案(Hybrid Task Cascade, HTC),该方法通过融合检测与分割特征,在实现多阶段协同处理的基础上成功地将其整合到实例分割流程中,并在COCO测试开发与测试挑战中均取得了最新的性能记录。(2)通过对前景目标与背景干扰的区分研究表明,在空间背景下进行实例分割具有显著优势。(3)我们系统性地研究了各组件及其设计策略,并为后续优化目标检测与改进实例分割算法提供了理论依据与实践指导。

2.相关工作
- 实例分割:
实例分割可被视为一种在像素级定位图像中具有吸引力的对象的任务。其中被分割的对象通常以蒙版形式表示。该任务与目标检测以及语义分割之间存在紧密相关性,并已由文献[30,22]进行了详细探讨。因此,在现有技术中主要可分为两类方法:一类是基于目标检测的方法;另一类则是基于图像分割的技术。
基于检测 的方法利用传统的检测器生成边界框或区域建议,然后预测边界框内的目标掩码。这些方法中有很多是基于CNN的,包括DeepMask[36]、SharpMask[37]和InstanceFCN[10]。MNC[11]将实例分割作为一个由实例定位、掩码预测和对象分类三个子任务组成的流水线,以级联的方式对整个网络进行端到端的训练。在最近的一项工作中,FCIS[23]扩展了InstanceFCN,并提出了一种完全卷积的实例分割方法。mask - rcnn[18]在Faster R-CNN[39]的基础上增加了一个额外的分支来获得像素级掩码预测,这表明一个简单的管道可以产生很好的结果。PANet[28]在FPN[24]中除了自顶向下的路径外,还增加了一条自底向上的路径,以方便信息的流动。MaskLab[7]通过结合语义和方向预测生成实例感知掩码。 基于分割 的方法首先在图像上获得像素级分割映射,然后从中识别对象实例。沿着这个思路,Zhang等人 [46, 45] 提出根据局部patches 预测实例标签,并将局部结果与马尔可夫随机场(MRF)集成。Arnab和Torr [1]使用条件随机场(CRF)来识别实例。Bai和Urtasun [2]提出了一种替代方法,将分水岭变换和深度学习相结合,生成能量图,然后通过分割分水岭变换的输出来得到实例。其他方法包括桥接类别级别和实例级别分割[42],学习边界感知的掩模表示[17],以及使用一系列神经网络来处理不同的子分组问题[27]。
桥接类别级别:通过将实例级别的分割结果与类别级别的分割结果相结合的方式进行处理,在实际应用中能够更好地实现对不同类别的识别与区分。这种方法的核心思想是基于类别级别的分割信息来推导出更为精确的实例级别的分割结果。其主要优势在于能够在不显著增加计算复杂度的前提下显著提升分割的准确率。
分水岭变换:分水岭算法特别适合于对具有复杂形状和纹理特征的目标进行图像分割。该算法的基本原理是将图像视为一个地形图,并通过模拟水流过程将图像划分为不同的区域。分水岭变换在实际应用中表现出色,在细胞、血管等目标对象的精确划分方面具有显著优势。
马尔可夫随机场(MRF):这是一种数学模型,在图像处理领域被广泛应用于建模像素之间的相互关系。马尔可夫随机场基于马尔可夫性质假设:给定当前状态时,未来状态的变化仅受当前状态的影响而不受过去状态的影响。这种特性使得MRF在描述图像中像素间的依赖关系方面表现得非常出色。
条件随机场(CRF):作为无向图模型的一种,在序列标注任务中发挥着重要作用。条件随机场的核心机制是建立观测数据与标签之间的概率关系模型,并通过最大化条件概率的方式实现标签预测与分类。其一个显著的优势就是能够有效地结合观测数据与标签信息来进行联合优化。
2.多阶段目标检测
近年来,在目标检测领域取得了显著的进步。主流的目标检测框架主要可分为两类:基于单级模型的方法[29,38,25]以及基于双级模型的方法[39,12,18,32]。近年来多阶段检测框架逐渐成为一种日益普及的目标检测方法论。多区域CNN[14]引入了一种迭代定位机制,在框评分与框细化之间实现了交替优化过程。AttractioNet[15]通过引入Attend & Refine模块来进行边界框位置的迭代更新操作。CRAFT[44]在RPN[39]与Fast RCNN[16]之间加入了层级化结构设计以提升候选框质量和检测精度水平。Io-Net[20]则通过渐进式边界框细化的方式(无需显式层级化结构)实现了边界框质量的逐步优化,并被用来剔除容易被误判为负样本的情况。在此类采用层级化架构的研究中,CASCADE R-CNN[5]被认为是与本研究工作最相关的相关方法之一。CASCADE R-CNN架构设计包含多个解码阶段,在每个阶段输出结果均被传递至下一层次以获取更高分辨率的信息,并利用逐渐提升IoU阈值的数据采样策略来训练各个层次模型以适应不同难度样本特征分布情况
尽管该框架也采用了级联结构,在多个方面存在差异性。其次,在每一个层级上将检测、掩膜预测以及语义分割等任务进行融合设计,并形成了一个整体性的多层级处理系统流程。通过这种方式,在每一级细节处理中都能充分考虑各环节间的相互影响关系。此外,在信息整合方面采取了更加灵活的方式:具体而言,在上下文中引入了分支结构进行内容划分,并设置了方向引导路径以实现跨层级的信息直传通路。
3.Hybrid Task Cascade
在该项研究中,我们发现成功的关键因素在于充分挖掘检测与分割之间的相互依存关系
混合任务级联(HTC)独特之处 :
(1)该系统将边界盒回归与掩码预测交错进行,而非同时执行。(2)通过直接连接,从前一阶段传递到当前层,从而增强了各mask分支间的双向交互。(3)为提升模型性能,本系统引入一个新的语义分割模块,并将其整合到box和mask分支中去,以进一步探索丰富的上下文关联信息。整体而言,这些架构调整显著提升了各层次间的信息交互能力


3.1 多任务级联
(1)Cascade Mask R-CNN
如图1a:The pipeline is formulated as:

x代表骨干网中的CNN提取器生成的关键点特征。通过结合级联细化方法的优势以及边界框与掩膜估计间的相互补充作用,在单独采用mask R-CNN架构或Cascade R-CNN架构的情况下,该方法显著提升了目标框AP(average precision)的表现。然而,在具体实现细节上仍需进一步优化以提高抽象级预测效果的质量。
(2)Interleaved Execution.
该设计的一个弊端在于,在训练期间同时进行两个分支时,每个分支都会使用上一个阶段的边界框预测作为输入。这表明这两个分支在同一时间段内不会直接相互作用。
为了求解这一问题,我们开发了一种改进的设计方案。该方案通过整合盒与掩模分支的特性进行交叉整合,并如图1b所示展示了其应用效果。交错执行体现为:A \rightarrow B

通过这种方法,在线性模型中应用改进型梯度下降算法能够显著降低计算复杂度;实验结果显示该方法有助于提升模型的整体性能水平
(3)Mask Information Flow.
在上述设计框架中,在每个阶段中所进行的掩膜预测过程都完全依赖于ROI特征x以及框预测rt。值得注意的是,在各个独立的掩膜分支之间缺乏直接的信息传递机制。这种缺乏直接信息流的方式最终导致了对后续掩膜预测精度的有效提升能力有所限制。
为了更有效地构建掩码信息流,在研究Cascade R-CNN时我们进一步探讨了其级联分支的设计[5]。其中值得注意的是其输入特性由前向网络与主干网络共同决定。借鉴这一原则我们在当前阶段将前一阶段提取得到的掩码特征传递至当前层级以便于各层次之间信息的有效流动如图1c所示。对于各层次之间直接连接的道路我们可以将其管道表示为:

其中m−t−1表示Mt−1中的中间特征,并将其作为阶段t−1的关键遮罩进行使用。F则是一个通过融合当前阶段与前一时期特征来构建的功能模块。这种信息流动为逐步细化遮罩提供了实现的基础,并非基于不断细化的边界框直接预测遮罩位置。
(4)Implementation.
根据上面的讨论,我们提出一个简单的实现如下所示。

在本实现中,我们采用反卷积层前的RoI特征作为掩码表示

其空间尺寸为14×14。在第t个阶段中,我们需要将之前所有的掩码节点信息传递到当前区域候选框(ROI)并进行计算

。

其中,

其代表掩码头Mt的特征变换分量,并由4个连续的3×3卷积层构成(如图2所示)。接着将其变换后的特征

被嵌入到1×1卷积层Gt中以使其与汇集的骨干特征x掩码t的位置关系得以对齐。最后,在输出层中进行逐元素相加处理以获得最终结果。

)加到

上文提到,在引入这一桥梁后,在相邻遮罩分支之间建立直接的互动关系。在不同阶段中出现的掩码特征不再是孤立存在,在此过程中均通过反向传播机制获得监督信息

3.2 Spatial Contexts from Segmentation
进一步利用杂乱背景中的空间信息以区分前景,我们将空间上下文被用作可靠的线索.为此,我们引入了一个模块用于生成图像每个像素的语义分割,该模块基于全卷积网络设计,并与其它模块协同训练(如图1d所示).通过将语义分割特征与现有盒子和掩膜特征相结合,我们可以显著增强模型性能

其中S被定义为对语义进行分段的关键标记。在该数学模型中,每个阶段的目标框头和遮挡掩膜不仅依赖于从主干网络提取出的兴趣区域特征作为输入数据,并且还整合了与语义相关的额外信息,即使在复杂多变的情境下依然表现出色。
(1)Semantic Segmentation Branch.
具体而言,在构建语义分割分支S[24]时,默认采用了基于特征金字塔的方法进行处理
图3展示了该分支的体系架构。特征金字塔各层级首先通过单通道卷积模块映射至一个共享表示空间。低频特征图通过上采样操作扩展空间尺度,高频特征则通过下采样缩小空间尺寸(取样步长设定为8像素)。基于实验验证,在此设置下可实现图像像素级别的精细分割效果。转换后的不同层次的特征映射通过元素和进行融合(在此基础上追加引入了四组卷积模块以弥合语义差距)。最终系统通过另一组卷积层完成逐像素分割预测任务。
(2)Fusing Contexts Feature into Main Framework.
众所周知,密切相关任务的联合训练可以改善特征表示,并为原始任务带来性能提升。在这里,我们建议将语义特征与盒/掩码特征融合在一起,以允许不同分支之间更多的交互。通过这种方式,语义分支直接有助于使用编码的空间上下文预测边界框和掩码。按照标准实践,给定RoI,我们使用RoIAlign从相应级别的特征金字塔输出中提取一个小的(例如,7 × 7或14 × 14)特征补丁作为表示。同时,我们还在语义分支的特征图上应用RoIAlign,得到形状相同的特征patch,然后通过元素求和将两个分支的特征组合起来。
3.3 Learning
基于目前的所有模块均为可微分这一前提, 基于此, HTC架构得以通过全连接方式实现统一训练目标.对于时间步t, RPN分支负责对所有采样候选区域框(corners)预测其分类得分c_t以及回归偏移r_t. mask分支则用于对正样本候选区域框预测其逐像素遮蔽度m_t. semantic stream则负责对输入图像生成完整的图像语义分割图Semantic Map.综合考虑各子任务特征后, 在损失函数中构建了多任务学习框架:

其中,

在阶段t时用于边界框预测的损失函数,在 Cascade R-CNN 方法中被定义为其与现有研究中的 Cascade R-CNN 方法一致;同时融合了 Lcls 和 Lreg 两个术语,在分类任务中应用前者,在边界框回归任务中应用后者。

基于第t个阶段掩码预测的损失函数设计中,我们采用了与mask R-CNN[18]相同的二值交叉熵形式作为损失函数基础。其中Lseg属于基于交叉熵的形式进行语义分割任务的损失函数。为了实现各阶段之间合理的信息传递与特征融合,在定义各权重系数时引入了αt和β两个变量来平衡各阶段及不同任务之间的贡献程度。其中αt和β分别用于衡量各阶段间权重分配的重要程度以及不同任务间的相对重要性权重分配情况。参考Cascade R-CNN[5]的设计思路,在具体实现时我们设定α = [1, 0.5, 0.25]作为权重序列,并选择T = 3作为总阶段数;同时将β设定为1以确保跨任务信息融合的有效性
4. Experiments
4.1 Datasets and Evaluation Metrics
数据集。 基于具有挑战性的COCO数据集的实验研究表明[26]. 我们基于该数据集进行模型训练,并在验证集以及测试开发集中展示了结果. 典型实例注释用于监督目标框及遮挡区域. 其中, 语义理解部分则通过COCO-stuff[4]提供的标注信息进行学习.
评价指标方面,则我们采用了COCO标准格式的标准平均精度(AP)作为评估依据。其在不同IoU阈值(从0.5到0.95)上的平均精度均不低于这一数值。同时计算并评估了框(bounding boxes)与掩码(mask)对应的平均精度。此外,在掩膜部分的具体计算中,则包括多个关键指标:包括但不限于 AP@50、 AP@75 以及不同尺度下的 APS、 APM 和 APL 等。测试实验均在单一TITAN Xp GPU环境下完成。
4.2 Implementation Details
在我们的所有实验中,均采用了三级级联结构。所有的骨干网络均采用了FPN模块。为了确保公平比较,在重新实现Mask R-CNN和Cascade R-CNN时使用了PyTorch[33]和mmdetection[6]工具,并发现其性能稍高于原论文报告。本研究采用16个独立GPU同时处理20个 epoch 的目标检测任务。将初始学习率设置为0.02,并在第16和第19个 epoch 时分别降低 learning rate by 0.1。保持图像比例不变的前提下,在长边设置为1333像素的同时缩短短边至800像素。
在推理过程中, 目标建议通过不同阶段的边界框逐步细化以反映更具体的边界信息. 通过综合各阶段分类得分可获得统一的目标定位结果例如Cascade R-CNN架构. 押韵分支仅在单个检测框分类得分超过阈值(设定为0.001)时被激活.
4.3. Benchmarking Results
我们在表1所示的COCO数据集上的最新实例分割方法中对比了HTC方案,并将其作为基准模型使用以进行扩展研究。此外,在第1节所述的基础上使用级联掩模R-CNN作为基准模型进行了评估。对比实验表明,在box AP指标上较传统的Mask R-CNN提升了3.5%,而在Mask AP方面则增加了约

4.4. Ablation Study
在本节中,我们深入探讨了框架内各主要组件的功能及其相互作用机制。其中“交错”描述了bbox分支与mask分支之间的功能交互过程,“Mask Info”则代表掩码分支的信息流特征。“Semantic”则体现了语义分割模块的关键特性。通过表2的数据分析可知,在交错执行机制下,mask AP指标较传统方案提升了约0.2%;同时结合掩码信息流优化后的表现指标进一步提高了约0.6%,而语义分割相关的性能提升幅度同样达到了约0.6%。

本节将探讨交错分支执行的效果及其在训练过程中的应用价值

Mask信息流的有效性分析:我们进行了研究以评估引入的掩码信息流对掩码预测性能的影响。该方法未引入语义分割分支以避免潜在干扰因素的影响。根据表4的数据, 引入掩码信息流带来了显著提升(约为1.5%), 这主要归因于每个层级能够获取到前一层级提取的关键特征信息, 因此在第二层实现了约8%的AP提升(具体数值为0.8%)。相比之下, 第三层的表现略逊于第二层(约为7%),但整体效果仍能通过集成机制获得较为理想的综合结果

Semantic Feature Fusion: Its Effectiveness. 通过引入语义分割分支以整合上下文信息,并结合各分支的信息以提升整体性能。多任务学习被普遍认为是一种有益的方法,在本研究中被用于探索其在目标检测中的应用效果。为了验证该方法的有效性,在实验中采用多个模型架构,在将语义信息与box、mask或其他相关属性相结合时取得了良好的效果(如表5所示)。在验证集上实现了一个约17.3%准确率的结果表现优异。此外,在进一步优化过程中发现:通过额外增加一个完整的图像分割任务模块,在验证集上实现了约0.6%性能提升主要归因于这一模块带来的直接增益;而当将其与其他辅助模块相结合时,则能获得更大的收益空间(如图2所示)。

Influence of Loss Weight.

4.5. Extensions on HTC
相较于去年获奖作品而言,我们提出的技术方案HTC获得了49.0%的掩模AP并带来了2.3%的显著改进。在此基础上,我们详细说明了实现这一性能的关键步骤及辅助模块设置。各组成部分所带来的一系列增益均体现在表7中。

HTC基线。 ResNet-50基线达到38.2掩码AP。
DCN. 我们在主干的最后阶段(res5)采用可变形卷积[13]。
DCN 也被称作 可变形卷积网络(Deformable Convolutional Networks),它是一种用于目标检测与图像分割这类任务的专业深度学习模型。该技术通过引入可学习位移参数使层间特征映射能够实现形态学上的平移、旋转与缩放操作。基于此特性设计出的网络架构能够有效捕捉复杂目标区域中的几何信息,并在此基础上实现精确的目标识别与语义分割。
SyncBN。 同步批处理归一化[34,28]用于主干和头部。
我们采用了多样化的尺度训练策略,在每个迭代周期内随机选取该范围内的起始短边尺寸,并确保长边尺寸与图像原尺寸的比例固定为16:9以维持统一比例框架。
除了ResNet-50之外,在尝试了多种主干结构后发现,在这些结构中SENet-154 [19] 展现出卓越的效果。其中SENet-154在所有候选模型中取得了最好的性能表现。
GA-RPN. 我们采用GA-RPN[41]产出的指导来优化训练好的检测器,并观察其实现对比RPN提升了约10%.
多层次测试方案中包含五种不同的尺寸范围,并结合水平方向上的镜像翻转技术进行实验数据采集与分析整合工作。具体而言,在本研究中我们设置了五个不同的宽高比区间:从6百到9百像素宽高比;8百到1千2百像素宽高比;1千到1千5百像素宽高比;1千2百到1千8百像素宽高比;以及最后的1千4百到2千1百像素宽高比区域进行实验采样与结果评估工作
Ensemble
4.6. Extensive Study on Common Modules
我们对用于检测与分割功能的相关组件进行了系统性研究,并对其性能表现进行了详细对比分析。通过对主干架构与代码库系统的深入比较,在统一平台上构建了一个基于最新技术的对象检测与实例分割综合平台。为了便于功能验证,在此整合了若干专门用于检测与分割的技术模块,并在同一基准下进行功能测试。测试结果显示,在附表8中对此进行了详细记录。鉴于当前的技术水平和资源限制,在现有基础上的一些实现方案可能尚不够完善,值得进一步探讨。为此所用代码已作为基准组件集合发布至公共平台供后续研究使用

ASPP是一种基于语义分割领域的Atrous Spatial Pyramid Pooling(ASPP)[8]模块。该模块用于从多角度提取丰富的图像细节信息,在多个尺度上捕捉更多的图像上下文特征。为了进一步提升网络性能,在FPN结构之后引入了一个完整的ASPP模块

PAFPN。我们对基于PANet [28] 的PAFPN模块进行了性能评估。与原始实现的主要区别在于,我们并未采用同步批标准化技术(Synchronized BatchNorm)进行处理
GCN. 我们在语义分割分支中采用了Global Convolutional Network (GCN)[35]。
该系统采用了Precise RoI Pooling(引用文献[20])作为RoI align组件。
SoftNMS。 我们将SoftNMS [3] 应用于框的结果。
5. Conclusion
我们开发了一种新型混合任务级联架构HTC用于实例分割领域。该系统结构通过交错设置盒子分支与掩码分支实现多步骤协同处理,并结合语义分割分支以提供空间上下文信息。在此方案下,系统逐步优化了掩膜预测能力,并在每个阶段整合了互补特征信息以增强预测效果。实验结果显示,在MSCOCO数据集测试中相比强级联掩模R-CNN基线模型性能提升1.5%。值得注意的是,在test-challenge基准测试中达到了48.6的掩膜AP指标,在test-dev基准测试中则获得了49.0的掩膜AP成绩
知乎上有一篇文章深入解析了实例分割技术的提升路径:从Mask R-CNN算法到混合任务级联架构的具体演变机制
