Advertisement

Decoupled DETR

阅读量:

DETR的概念开创了一种全新的目标检测范式。
尽管其解码器采用共享Query及交叉注意力机制用于分类与框位移任务 导致结果欠佳。
研究者注意到 在同一目标下不同兴趣区域在视觉特征图中更适合执行特定的任务。
关键区域提供了重要的分类信息 而边缘部分有助于框位移。
遗憾的是 这两个任务的空间分布不匹配 严重制约了DETR的学习过程.

在此研究中,研究者旨在通过空间解耦DETR(SD-DETR)架构来实现定位与分类任务的分离。为此目的,他们采用了空间解耦方法,并设计了一个基于任务感知的任务区分机制,该机制能够有效地将不同类别的信息进行区分处理。特别注重优化了任务感知查询初始化策略,并在解码器模块中引入了分层注意力机制,从而实现了更精细的任务相关特征提取与融合。

此外,在深入研究这一现象后发现,在高分类置信度与精确定位之间确实存在一种不一致的问题本身存在。基于此观察结果,在进一步分析的基础上提出了一个针对这种不一致性的损失函数设计思路,并通过这一优化改进策略能够更加有效地理解决策分离DETR模型的训练过程。

基于大量实验数据表明,在MSCOCO数据集上作者的方法相较于前人研究而言取得了明显的进步。具体而言, 作者成功实现了Conditional DETR性能提升4.5个AP的成绩。通过将两个任务的空间解耦实现, 作者消除了对齐上的限制, 有效提升了DETR在目标检测任务中的表现。

目标检测在计算机视觉领域占据核心地位。传统的检测器主要通过卷积运算提取图像信息表示,并且通常包括单级与多级的不同类型。相比之下,近期研究者提出了DETR等新方法。该方案为端到端设计,在预测阶段直接输出结果而无需后续处理步骤如非极大值抑制(NMS)筛选候选框。

然而发现匹配Query与视觉特征图的位置先验不足会导致DETR收敛速度变慢。因此随后的研究则致力于通过多种技术手段优化初始目标Query以提升效果。与此同时,在借鉴RCNN的目标检测架构时共享用于分类与定位任务的不同分支可能导致整体性能下降。由于分类与定位分支各自拥有不同的学习目标可能存在不一致性

为了应对这一问题,Double-Head R-CNN通过将检测头拆分为两个独立的任务:分类和定位,从而实现了高效的图像处理能力。尽管这种拆分在一定程度上提高了性能,然而由于这两个分支共享相同的Proposals,借助于RoI池化操作的应用,仍会存在一定的冲突.

此外,在DETR架构中存在对注意力机制的高度依赖性特点导致其无法直接借鉴基于Anchor或卷积特征分离的数据提取方法;鉴于此限制因素受限于DETR模型的设计特性而难以将其应用于基于DETR架构的数据提取器开发

作者特别指出,在分类与定位任务之间存在一种不对齐的问题现象,在DETR模型中也同样存在这一问题长期未引起重视。为了深入说明这一问题的严重性与解决方案的重要性,在这项研究中作者进行了初步探索——通过构建两个独立的解码器副本来彻底分离出这两个功能模块的具体工作流程与作用机制。随后通过生成相应的神经元活化图表示,并将其展示在图1中以供详细分析。

第二列和第三列分别展示了用于分类识别与分支定位的交叉注意力图。各分支单元的空间激活特性表现出显著差异性,并通过数据分布形态体现出重要的语义不一致现象。通过进一步的数据分析可以看出,在这些空间位置上各分支单元对特定的任务重要性各有侧重:以目标区域内部的重要部位为例,在该区域内关键点位上的特征能够充分支持分类任务;同时,在目标外围区域附近的位置信息有助于提升检测框的位置精度

基于这一观察发现, 作者针对DETR架构设计了一种去耦合方案, 如图2所示. 然而, 作者并未简单地采用两个完全分离的分支结构. 相反, 作者将解码器中的交叉注意力模块划分为两个独立分支, 这使得分类器和定位器能够在不同视觉区域独立地进行Query匹配. 此外, 这两个分支仍然共享自注意力机制, 从而能够相互协作以检测相同的目标. 通过将交叉注意力模块与分类、定位任务实现独立性设计, 作者提出的方法在现有DETR检测模型上实现了性能提升.

此外强调了作者指出DETR解码器查询初始化对于带来优异性能与较快收敛速度的重要意义,在原始模型中输入查询由内容查询与随机初始化的位置编码组成然而经过分离分类与定位分支处理后初始化方案的重要性愈发凸显

为了解决该问题,作者设计了一个基于Anchor框的学习任务特定Query组件。随后,在识别出Anchor框内独特的关键点位置后,并行处理了内容嵌入初始化的方法:从编码器特征图中提取采样这些独特关键点位置的信息。同时,在计算每个关键点相对于基线位置的位置偏移并应用正弦函数处理后,则生成了相应的位移信息作为位置嵌入

作者注意到,在准确分类与精确定位之间存在不对齐的现象会导致高分类置信度与相对较低的IoU分数之间的关联

基于对齐标签分配机制的启发,在研究过程中作者进一步提出了一个新的对齐损失函数,并通过这一创新手段成功地引导了作者在解耦DETR架构过程中实现高分类准确率与精确定位的和谐统一。

作者总结作者的贡献如下:

该研究指出了DETR在分类与定位分支之间的特征与预测结果之间存在不一致的现象,并表明这一现象显著地限制了DETR-like检测器的整体性能表现。

解耦了对分类及定位分支特征的学习过程。作者将解码器中的交叉注意力模块划分为两个独立分支,并使每个分支能够分别与视觉特征图的不同区域进行匹配。随后为这两个独立分支均设计了任务感知型Query生成机制用于初始化Query参数。最后作者提出了一种对抗性损失函数旨在协调高分类准确率与精确定位之间的平衡关系

整合了多种DETR的变种,在MSCOCO数据集上进行了系统性实验。经过详细分析与评估后发现, 该方法在性能提升方面具有显著优势

方法

重新审视通用DETR流程

DETR是一个灵活且高效端到端检测器,在将目标检测视为一种集合预测问题时展示了卓越的效果。它通过预先设置了多个查询项,并采用了基于Transformer编码器-解码器架构的一一对应匹配方案来实现这一过程。每个目标实例则被分配至相应的查询项中,并以分类和定位任务为目标进行监督学习。

空间解耦DETR

基于之前的分析,在分类与定位等不同任务中存在共用查询机制,并且这些查询机制之间的交叉注意力机制也存在固有的冲突。这一现象显著影响了DETR类检测器的性能。例如,在关键区域的特征可能携带丰富的分类信息,在边缘附近的特征则更有利于边界定位。然而由于DETR采用全共享范式这一特性使得其难以有效学习任务特化的深层表征进而限制了其性能提升空间

旨在解决这一潜在问题的研究者们引入了一种名为空间解 coup e 的 DETR 模型。研究者通过从两个方面实现任务的 解 隔以缓解这种冲突的具体方法包括: 解 隔 的 特征 学习( DFL )以及 任 务感知 Query 生成 。在 DFL 中通过以下方式 调整 Eq. (1):

通过分离交叉注意力与FFN模块中的Query提取与特征映射, 该空间解耦架构允许空间分割DETR能够根据需要动态优化其感知能力. 此种设计方案适用于现有多数基于空间分割DETR的目标检测系统, 同时仅带来了微乎其微的成本增量.

解耦的特征学习

为了尽可能利用网络能力, 作者需基于此设计一种解耦特征学习架构. 最直观的方式则是将Transformer decoder进行模块化拆分. 然而由于两个分支间的信息传递效率较低同时模型参数规模大幅上升, 导致整体架构设计略显保守.

关键特性在目标识别与定位中扮演着至关重要的角色。
通过应用双线性插值方法提取其对应的特征向量。
为了更好地捕捉目标特性,
我们在后续步骤中进一步计算每个分支节点及其偏移量所对应的均值特征向量。
随后,
在更新Query的内容嵌入时,
我们在构建可学习查询位置嵌入的过程中引入了位置编码函数PE来进行辅助运算。

任务对齐学习

在上一节中,作者阐述了DETR体系中分离分类与定位分支的方法.然而,在从目标Query生成预测的过程中,精确分类与精确定位之间的失衡却显著影响了模型的学习效果.这种失衡主要体现在当Query获得较高的分类置信度时却具有较低的交并比(IoU)分数,或者相反的情况.

基于先前的工作, 作者调整了DETR损失函数以改进性能. 目标是同时达到高的分类准确性和定位精确度. 为了达到这一目标, 作者通过将每个Query的任务配准程度, 即通过将分类得分与IoU进行更高层次的结合来计算配准度

具体而言,作者设计了以下指标来计算每个Query的对齐度:

讨论

定位分支会偏向于激发更高水平的目标边界。分类分支则侧重于整体目标。特别强调显著区域。通过分离这两个分支后,则让每个分支都能更灵活地捕捉各自特有的信息

实验

消融实验

作者对空间解耦DETR中的各个组件展开了深入探讨,并对其功能作用进行了系统考察(见表2)。研究表明,在引入新模块的过程中,空间解耦DETR表现出性能提升趋势。在表格顶部部分列出了作者所建立的基础模型——基于minidetector条件下的条件DETR架构(Conditional DETR)。通过采用独立特征学习的方法(即解耦了交叉注意力层但保持了共享自注意),研究者实现了1.4百分点AP性能显著提升,并凸显了解耦机制的重要性。

在此基础上,通过任务感知的Query创建过程,在每个分支中生成了具有更高信息量的数据内容,并对位置嵌入进行了优化初始化工作。作者成功地将系统性能优化到了43.6%。

最后,在改进原始DETR损失函数的基础上,在高置信度分类与精确定位间的预测不一致问题上取得了显著进展,并使性能达到45.5水平。在这一研究工作中所作出的三个主要贡献主要体现在三个方面:一是优化损失函数;二是提升模型精度;三是完善目标检测机制。

完全分割解码器的比较

在本节里,作者对解码器中不同解耦结构的作用进行了探讨。其中最为直接采用的是解码器的直接副本方案,在这种架构下分类任务和定位任务完全分离了两个功能模块。

然而,在表3的数据中可以看出, 这种结构仅使性能提升幅度达到了0.5。完全解耦的方法未能考虑到两分支间的互信息传递, 因此在作者的设计方案中, 交叉注意力模块被单独划分, 并与自注意力模块共享, 从而使得不同分支Query间的信息传递得到了保留, 同时仅增加了少量额外参数以实现这一目标

SOTA对比

可视化

全部评论 (0)

还没有任何评论哟~