Advertisement

DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION (论文解析)

阅读量:

DEformable transformer-based detector: A deformable transformer-based approach is proposed for end-to-end object detection tasks.

    • Abstract
  • 1 Overview
  • 2 Review of Related Work
  • 3 Re-examining the Transformer and DETR Models
  • 4 Methodology
    • 4.1 A modified transformer architecture for end-to-end object detection

      • 4.2 Other improvements and variants of Deformable DETR
    • 5 实验

      • 5.1 和DETR 比较
      • 5.2 消融实验
      • 5.3 与最先进方法的比较
    • 6 结论

FOR END-TO-END OBJECT DETECTION)

摘要

DETR作为一种新型目标检测方法最近被提出,其主要目的是通过去除传统目标检测中大量人工设计组件的依赖,从而实现了良好的检测效果。然而,该方法在收敛速度较慢以及所处理图像特征图的空间分辨率有限等方面存在不足,这主要是由于Transformer类型的注意力机制在处理图像特征图时所固有的局限性所致。基于此,我们提出了改进型Deformable DETR,其核心创新在于将注意力机制限定在围绕参考点的一组关键采样点范围内进行计算,从而有效降低了模型复杂度的同时提升了检测精度。实验结果表明,与基础版DETR相比,我们的改进型模型能在训练时间缩短约十倍的情况下实现更好的性能表现(尤其是在处理小尺寸目标时表现尤为突出)。通过对COCO基准数据集进行的大规模实验验证,我们方法的有效性得到了充分证明.此外,代码已成功发布于GitHub平台上的https://github.com/fundamentalvision/Deformable-DETR项目仓库中

1 介绍

现代目标检测器依赖许多人工设计组件(Liu等人, 2020),如锚框生成、基于规则的目标定位分配以及非极大值抑制(NMS)后处理等技术。这些系统并非完全端到端架构。近期,Carion等人(2020)开发了DETR模型,取消了对这些人工设计组件的依赖,实现了首个完全端到端的目标检测系统,表现出很强的能力。DETR采用了简洁的设计框架,将卷积神经网络(CNNs)与Transformer编码器-解码器结构巧妙地结合在一起,并巧妙地发挥了其强大的多模态处理能力,在适当设计的训练信号下达到了这一目标

尽管Detr拥有独特的设计并展现出良好的性能,但它也存在一些局限性:(1)相比现有目标检测器,Detr的收敛所需训练周期更为漫长。例如,在COCO基准测试中,Detr的收敛周期约为500个,这大约是Faster R-CNN时间的10至20倍。(2)在小目标检测方面,Detr的表现略逊于其他现代目标检测器。现代目标检测器通常采用多尺度特征,其中小目标是从高分辨率特征图中捕获的。然而,高分辨率特征图会令Detr的计算复杂度变得过高。这一问题主要源于Transformer组件在处理图像特征图方面的不足。注意模块在分配关注权重时几乎均匀地覆盖了特征图的所有像素,但需经过较长的时间进行训练,以便使注意力机制能够集中于稀疏且重要的图像位置。另一方面,Transformer编码器中的注意力计算与像素数量呈二次方关系,因此处理高分辨率特征图具有非常高的计算和内存复杂度

在图像处理领域中,在计算机视觉的研究中, 可变形卷积(Deformable Convolution)作为一种备受瞩目的技术, 被广泛认为是一种强大的、高效的工具, 其主要优势在于能够精确聚焦于图像中的局部区域. 这种机制不仅能够有效缓解上述问题所带来的挑战, 而且由于其高效性, 在实际应用中展现出显著的优势. 然而, 该方法未能提供元素间关系建模的能力, 这正是DETR模型取得成功的重要原因.

在这里插入图片描述

在本论文研究中,我们提出了一种名为Deformable DETR的新方法,该方法显著改善了基于DETR的传统目标检测算法的收敛速度与计算效率问题.该方法整合了稀疏采样技术与Transformer模型的优势,并在此基础上创新性地设计了一种新型可变形注意力机制.这种机制能够有效地筛选并聚焦于特征图中的关键采样点,从而实现对多尺度特征的有效聚合.值得注意的是,该模块无需依赖传统特征金字塔网络(FPN)即可完成复杂的特征融合过程.在所提出的Deformable DETR架构中,这种新型多尺度注意力机制被成功替代并集成到传统的Transformer关系建模框架中(如图2所示)

Deformable DETR通过整合多种端到端的目标检测器变体展现了巨大的潜力,并得益于其高效的计算与内存利用率以及迅速的收敛特性。研究团队开发了一种简洁且高效的边界框细化机制来提升检测性能。此外,在他们的研究中还引入了一个双阶段设计框架,在这一框架中区域提议由变形Detr生成后经解码器优化以进一步精炼边界框定位精度

通过系统性实证研究,在COCO基准测试中验证了该方法的有效性。
相较于DETR,在所需训练时间相对较少的情况下表现出更优的效果。
进一步优化后的变形版本显著提升了性能水平。
代码已发布在https://github.com/fundamentalvision/Deformable-DETR.

通过系统性实证研究,在COCO基准测试中验证了该方法的有效性。
相较于DETR,在所需训练时间相对较少的情况下表现出更优的效果。
进一步优化后的变形版本显著提升了性能水平。
代码已发布在https://github.com/fundamentalvision/Deformable-DETR.

2 相关工作

本研究探讨了先进的注意力机制在Transformers模型中的应用。(Vaswani等提出)该类模型主要包含自注意力和交叉注意力机制。一个显著的问题在于,在处理大量关键元素时,该类模型的时间与内存复杂度呈显著增长趋势。近年来针对这一挑战已提出了多项解决方案(Tay等人于2020年发表研究),这些方法大致可分为三类。

此类方法通过预设稀疏注意力机制来处理关键元素问题。其中最直接的例子是将注意力机制限定为固定大小的局部窗口。许多现有研究(包括Liu等人(2018a)、Parmar等人(2018)、Child等人(2019)等)都采用了这一策略作为基础设计。然而这种简单限制不仅降低了模型复杂度还能有效捕捉局部特征但它却牺牲了全局视角以获取更高的计算效率为此一些研究者提出了改进方案以扩大对关键元素的感受范围如Child等人(2019)、Huang等人(2019)、Ho等人(2019)以及Wang等人(2020a)分别通过固定间隔关注和可扩展感受野设计提升了模型对关键位置的关注能力而Beltagy等人(2020)、Ainslie等人(2020)以及Zaheer等人(2020)则采用了基于特殊标记的位置跳跃机制从而进一步扩大了模型的关注范围此外Zaheer等人(2020)和Qiu等人(2019)还引入了一些预先定义的关键位置关注策略以直接强化对远距离关键元素的关注

这类方法主要涉及对稀疏注意力的学习过程。Kitaev团队在2020年提出了基于局部敏感哈希机制的一种新型注意力模型。该机制通过将查询与关键元素分别映射到不同的哈希桶来实现信息的有效组织与检索。Roy等人于同一年也提出了类似的思路,在他们的研究中引入了k均值算法筛选出最具代表性的关键元素进行处理。Tay团队则研究了块状稀疏注意力矩阵中块排列的具体方式

该类方法致力于探索自注意力机制中的低秩特性。研究表明,在线性投影处理尺寸维度而非通道维度的方法能够有效降低关键元素数量。此外,在这一领域中还有其他研究者采用核化逼近技术对自注意力机制进行了重构。

在图像领域中,在构建高效注意力机制方面仍局限于第一类方法。(如Parmar等(2018); Child等(2019); Huang等(2019); Ho等(2019); Wang等(2020a); Hu等(2019)及Ramachandran等(2019))尽管在理论层面上降低了计算复杂度,但Ramachandran等(2019)及Hu等(2019)认识到,相较于相同FLOPs的传统卷积,这些方法在实现上要慢得多,至少减慢3倍的原因在于其内建的内存访问模式存在局限性

值得注意的是,在深度学习模型的发展过程中,
存在一些卷积变体技术,
例如可变形卷积(Dai等, 2017; Zhu等, 2019b)
以及动态卷积(Wu等, 2019)。
这些方法都可以被视为自注意力机制的一种扩展形式。
特别是在图像识别任务中,
可变形卷积展现出超越Transformer架构的优势,
其操作效率也更为显著。
然而,
这些方法在处理元素间关系时仍显不足,
缺少对元素间关系建模的能力。

我们提出的可变形注意力模块源自可变形卷积的概念,归类于第二类。该模块仅专注于从查询元素特征中提取的一小群固定采样点。相较于Ramachandran等人(2019)和Hu等人(2019)的研究工作而言,在相同计算复杂度下,该方法运行速度稍慢。

多尺度特征表示在目标检测中被广泛应用。不同规模的对象有效表示一直是目标检测中的主要挑战。为了应对这一挑战,现代目标检测器通常采用多尺度特征提取的方法。作为一种开创性研究,FPN(Lin等人, 2017a)提出了一种自顶向下整合多尺度特征的路径。在此基础上又增添了自底向上的整合模块(Liu等人, 2018b)。Kong等人(2018)通过全局注意力机制整合来自不同规模的特征图(Liu等人, 2018b)。Zhao等人(2019)提出了一种U型结构来融合多尺寸特性图(Zhang等人, 2019)。最近的研究表明,在使用神经架构搜索方法时实现了跨尺寸信息的有效连接(Ghiasi等人, 2019)。此外,在Auto-FPN框架下也实现了这种跨尺寸连接机制(Xu等人, 2019)。BiFPN方法(Tan等人, 2020)则是一种基于PANet简化设计的双分辨率版本。我们提出的可变形注意力模块能够自然聚合多种分辨率的特性图层(Wang等人, 2021),无需依赖传统的金字塔式架构辅助。

3 重新审视 Transformers 和 DETR

多头注意力机制作为Transformers的基础架构,在自然语言处理领域取得了重要突破

在这里插入图片描述

其中m代表注意力头部分。权重矩阵W_m \in \mathbb{R}^{C^v \times C}以及W_m \in \mathbb{R}^{C \times C^v}均为可学习参数(假设一般情况为C_v = C/m)。需要注意的是权重A_{mqk}满足不等式A_{mqk} \leqslant \exp\left\{ z_q^\top U_m V_{m x_k} \sqrt{C_v} \right\}并被规范化为\sum_{k\in\Omega_k} A_{mq k}=1。在这里U_m, V_m \in \mathbb{R}^{C^v\times C}也是可学习参数矩阵。为了避免不同空间位置带来的歧义性问题,在计算特征z_qx_k时通常会将它们视为元素内容与位置嵌入的结果进行拼接或求和处理。

Transformers 被认为存在两个知名问题。其中一个主要问题是 Transformers 需要较长的时间才能完成收敛过程。假设查询元素的数量设为 N_q,并设定关键元素的数量为 N_k,在通常情况下,默认情况下通过适当的参数初始化使 Umzq 和 Vmxk 的分布均值设置为零、方差设置为一的情况下,则可得出注意力权重 Amq k 大约为 1/N_k 当且仅当 N_k 较大的时候成立这一结论;这将导致输入特征的整体梯度变得模糊不清;因此为了提高模型性能必须延长训练时间以确保注意力权重能够集中在特定的关键元素上;特别是在图像处理领域中 关键元素通常指的是图像像素点 因此当 N_k 值较大时 训练过程可能会变得更加复杂和耗时

同时,在处理多个查询与关键元素时,多头注意的计算与存储器的复杂度可能较高。其中,在图像域中进行处理时(其中查询与关键元素均为像素),我们有Eq. \text{[1]}中的计算复杂度为O(N_qC^2 + N_kC^2 + N_qN_kC)。具体而言,在图像域中由于查询与关键元素均为像素的关系(即N_q = N_k C),此时第三项主导了总复杂度(即O(N_qN_kC))。因此,在特征图尺寸扩大时,多头注意力模块的复杂度呈现二次增长。

DETR (Carion等人,2020)以Transformer编码器-解码器架构为基础设计,在其框架中融合了基于集合的匈牙利损失模型,并借助二分匹配机制确保每个真实边界框对应唯一的预测结果。我们简要回顾网络架构如下。

基于标准Transformer编码器-解码器架构设计,在输入特征图x∈RC×H×W(其中CNN主干提取了该特征)的基础上映射至一组对象查询特征。在解码器生成的对象查询特征上,并行添加3层前馈神经网络(FFN)及线性投影层作为检测头模块。通过3个连续的全连接层实现回归目标:即预测边界框坐标b ∈ [0, 1]4中的四个参数{bx, by, bw, bh}分别表示归一化的框中心坐标、高度和宽度参数(均取值于[0,1]区间)。同时并行设计了一个线性投影层用于输出分类预测结果

在Detr架构中,Transformer编码器中的查询与键元素均为来自特征图的像素点。输入数据为经过ResNet网络提取的编码特征图(并带有位置编码)。假设图像的高度与宽度分别为H与W,则自注意力机制的时间复杂度为O(H²W²C),这一复杂度指标与图像的空间尺寸呈二次方增长关系。

在Detr架构中,解码器接收编码器生成的关键信息以及通过可学习位置编码表示出的N个目标查询(例如N=100)。该解码器系统包含两种主要的关注机制:交叉注意力与自注意力。在交叉关注机制中,目标查询能够从输入图像的空间特征中提取关键信息;其中目标查询与编码器输出的空间特征之间的关系由空间变换矩阵所定义。这种关注机制的时间复杂度为O(HWC² + NHWC),其计算规模与输入图像的空间尺寸呈正相关增长关系。在自关注机制中,则通过多头自注意层来捕捉目标间的相互关联性;这种机制的时间复杂度为O(2NC² + N²C)(其中C代表通道数)。当目标数量处于合理范围时,在保证性能的同时也能够实现良好的计算效率

DETR是一种引人注目的目标检测架构,在无需传统手工组件的情况下实现了高效的检测性能。尽管其在某些应用中表现尚可,但仍存在明显局限性。这些问题主要源于Transformer注意力机制在处理图像特征图时所固有的缺陷:(1)相比而言,在小目标检测任务中(DETR)的能力相对较差。现代目标检测系统通常采用高分辨率特征图来提升对小型物体的识别能力。(2)相较于当前先进的目标检测技术(DETR)收敛速度较慢的原因在于其自注意力机制难以有效学习复杂的图像关系模式——例如,在初始状态下交叉注意力模块会对整个特征图进行均匀分配。(3)经过充分训练后这一现象有所改善但并不彻底由于模型在学习后期倾向于将注意力集中在边缘区域而非整体结构

4 方法

4.1 用于端到端目标检测的可变形transformer

Deformable Attention Module(可变形注意力模块)。将Transformer注意力直接应用于图像特征图会面临主要挑战在于其无法聚焦于局部区域。针对这一问题提出解决方案的关键在于设计一种能够灵活关注不同空间位置的方法。受到可变形卷积(Dai et al., 2017; Zhu et al., 2019b)研究的启发,在本模块中我们实现了对特定采样点的关注机制:无论输入图像的空间尺寸如何变化,在每个查询点周围仅关注少量关键采样点即可实现有效的特征提取与表示学习效果(如图2所示)。通过将固定数量的关键采样点分配给每个查询单元,在保证计算效率的同时有效缓解了传统方法中存在的收敛性与分辨率不足的问题。

在这里插入图片描述

给定输入特征图 x 的结构中包含三个基本参数:通道数量 C、高度 H 和宽度 W。其中 C 表示通道数、H 和 W 分别代表高度和宽度。我们关注的一个查询单元具有内容特征求 zq 以及二维参考坐标 pq。基于可变形注意力机制( deformable attention mechanism )构建的特征表达式如下所示:其计算公式为 Σ_{i=1}^{N} w_i(x) * f_i(zq, pq, x),其中权重函数 w_i(x) 是由位置编码信息决定的

在这里插入图片描述

其中m代表注意力头的索引位置,k代表采样键的位置编号;K表示总的采样键数量(记为K HW)。

Deformable attention组件专门针对卷积特征图这一关键要素而设计。令Nq表示查询元素的数量,在MK相对较小的情况下,该组件的计算复杂度达到O(2NqC² + min(HWC², NqKC²))(详情参见附录A.1)。将其应用于DETR编码器时,默认情况下有Nq = HW,则计算复杂度简化为O(HWC²),其与空间尺寸呈线性关系。作为交叉注意力组件被应用于DETR解码器时,默认情况下有Nq = N(其中N代表目标查询数量),此时计算复杂度变为O(NKC²),与空间尺寸HW无关。这使得该组件能够在不同应用场景中灵活运用的同时,在处理卷积特征图方面降低了计算负担

多尺度可变形注意力模块 。主流多数现代目标检测框架依赖于多尺度特征图(Liu等، 2020)。该模块能够无缝整合多种尺度信息。

定义{x_l}{L_l}=1为输入的多尺度特征图,并且{x_l}{C × H_l × W_l}具体表示其维度结构。接着定义{\hat{p}}_q ∈ [0, 1]^2为每个查询元素q所对应的规范化坐标位置,则在多尺度可变形注意力机制中具体应用如下:

在这里插入图片描述

其中m标记注意力头端部,l标记输入特征水平,此外k标记采样点。Δ pmlqk与Δ mlqk分别代表l级特征中m个注意力头端部第k个采样点的偏移量与权重系数。标量注意力权重Amlqk则遵循以下归一化方式:Ll=Kk=1时,Amlqk=1。在此处,我们采用归一化坐标pq∈[0,1]²来清晰地展示尺度关系,其中归一化坐标(0,0)与(1,1)分别对应图像左上角与右下角位置。根据等式3所示,函数φl(Φ pq)将归一化坐标Φ pq映射到第l级输入特征图空间中

基于现有研究(Dai等人提出)

可变形Transformer编码器 。我们用所提出的多尺度可变形注意模块替换了DETR中处理特征图的Transformer注意模块。编码器的输入和输出都是具有相同分辨率的多尺度特征图。在编码器中,我们从ResNet(He等,2016)的C3到C5阶段的输出特征图(经过1×1卷积变换)中提取多尺度特征图{xl}L−1
l=1(L = 4),其中Cl的分辨率比输入图像低2l。最低分辨率的特征图xL是通过对最终的C5阶段进行3×3步幅2卷积获得的,表示为C6。所有多尺度特征图都具有C = 256个通道。请注意,不使用FPN(Lin等人,2017a)中的自顶向下结构,因为我们提出的多尺度可变形注意本身可以在多尺度特征图之间交换信息。多尺度特征图的构建也在附录A.2中进行了说明。第5.2节的实验表明,添加FPN不会提高性能。

当编码器应用多尺度可变形注意力机制时

可变形Transformer解码器. 解码器内部包含交叉注意力机制与自注意力机制。这些不同类型的注意力机制均以目标定位为基础。在交叉注意机制中, 来自编码器输出生成的目标特征图被用来提取跨尺度信息;而在自注意机制内, 目标定位的关键点通过相互作用完成表征更新. 为了提高模型对复杂场景的理解能力, 我们基于此方案仅将交叉attention子网络替换成多尺度可变形attention子网络, 而保留传统的self-attention结构不变. 具体而言, 对于每一个目标定位点, 在二维归一化坐标下计算其对应的参考点ˆpq, 这个过程可以通过一个线性投影层将坐标转换为概率值

由于多尺度可变形注意力模块基于多尺度分析框架提取了围绕参考点的空间特征,并将检测头设计为相对于该参考点的位置估计器。这种设计策略使得检测头能够推算出目标框相对于基准位置的变化量,并因此降低了整体优化难度。在设定目标框中心位置时采用了该参考点作为初始估计,并利用解码器关注机制与边界框定位结果之间建立了直接的关系。详细信息请查看附录A.3。在此方法下,在DETR架构中替代传统的Transformer关注机制后所建立的一种高效且快速收敛的目标检测系统被称为可变形DETR(见图1)。

4.2 Deformable Detr的其他改进和变型

该模型具备高度适应性(可变形DETR)为我们的研究提供了独特的机会

该研究源自光流估计中迭代细化工作的开发(Teed&Deng, 2020)。我们提出了一种简洁有效的迭代边界框细化机制以提升检测性能,在此过程中每个解码器层根据前一层的预测进行边界框的细化。

双阶段变形DETR模型 作为一种新型目标检测技术,在传统DETR架构中,默认情况下解码器中的目标查询与当前图像区域之间并无关联。基于模仿现代多目标检测器的理念,在原有的基础上对变形DETR进行了优化设计。随后生成的目标建议作为新的目标查询被传递至解码器进行更细致地处理,并最终形成了一个双阶段变形DETR架构框架。

在第一阶段中, 为了达到高召回率的目标, 多尺度特征图中的每个像素都将充当目标查询单元. 然而, 将目标查询直接设置为像素会导致解码器中的自注意力机制计算复杂度与内存开销急剧上升, 其增长速度呈二次方级别. 为了缓解这一问题, 我们放弃了传统的解码器架构, 构建了一个仅包含编码器的新架构——Deformable DETR. 在该架构中, 每个像素被独立分配为目标查询单元, 并直接预测边界框. 最后得分最高的边界框将被选作最终的目标提议. 在将目标提议传递至下一阶段之前, 我们不会执行非极大值抑制(NMS)操作.

5 实验

基于COCO 2017数据集的实验研究中, 我们对提出的模型进行了系统性的评估. 在完成模型训练后, 我们通过验证和测试两个环节对其性能进行了全面考察.

具体实施方案中

5.1 和DETR 比较

如图1所示,在与Faster R-CNN特征金字塔网络(FPN)相比时

表格1对比分析了Deformable DETR与标准DETR在COCO 2017验证集上的性能表现。其中DETR-DC5+模型基于Focal Loss损失函数并引入了最多300个目标检测查询项。

在这里插入图片描述
在这里插入图片描述

如图3所示,在COCO 2017验证集上,我们对比了基于可变形DETR和DETR-DC5的收敛曲线。通过调整训练阶段来探索不同训练进度的影响。我们发现,在调整学习率下降的时间点时(此时AP分数呈现显著提升),能够有效优化模型性能。

5.2 消融实验

表2报告了所提出的可变形注意模块各种设计选择的消融实验结果。采用多尺度输入而非单一尺度输入能够显著提高检测精度(AP提升了1.7个百分点)。通过增加采样点数K(提升约0.9%)能进一步优化性能。引入多尺度可变形注意力机制(由于已经实现了不同尺度特征间的交互)可额外提升约1.5%的AP值。值得注意的是,在不采用多尺度注意力并取K=1的情况下(即退化为传统卷积架构),我们的方法并未带来性能优势

在这里插入图片描述

表2:COCO 2017验证集上的消融实验结果对比表中展示了不同方法在该基准数据集上的性能评估结果

5.3 与最先进方法的比较

表3对比分析:将我们提出的方法与其他现有的先进方法进行了系统对比研究。在表3中展示的是我们所提出的模型的具体实现细节及性能指标对比结果:我们采用迭代优化的边界框细化技术并结合双阶段机制设计,在ResNet-101和ResNeXt-101(Xie等人)的基础上分别获得了48.7%和49.0%的平均准确率(AP)。当我们在基于ResNeXt-101架构上集成DCN模块(Zhu等人),能够显著提升模型准确率至50.1% AP;进一步引入额外的数据增强技术后,则达到了令人满意的52.3% AP水平

在这里插入图片描述

表3-1:基于可变形DETR算法的COCO 2017开发集性能对比分析研究。其中"TTA"代表在测试阶段应用的数据增强技术体系,具体涵盖水平翻转操作以及多尺度采样策略

6 结论

基于端到端架构设计的Deformable DETR是一种目标检测模型,并展现出良好的计算效率。该方法为我们提供了开发多样化的新型目标检测器的可能性。其核心技术包含一种多尺度可变形注意力机制,在对图像特征图进行分析时该机制表现出色。未来的研究工作将致力于拓展这种高效的目标检测框架的应用范围。

全部评论 (0)

还没有任何评论哟~