目标检测——【Transformer】DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

阅读量：

文章侧重点

改进DERT中存在两个问题：
- 收敛速度很慢的问题，究其原因是因为 object query 从零学起，且当前注意力机制对特征的计算是全局式逐像素计算，耗时。
- DERT对小目标的检测性能不佳，因为通常小目标的检出需要高分辨率的特征图，但是DERT因为性能权衡，只用单一尺度检测。
Deformable DERT 借鉴 Deformable Convolution 的稀疏采样思想，将其扩展到Transformer中，并进行多尺度的检测。相比之下， Deformable Convolution 是在单一尺度下找到一个关键点，而 Deformable DERT 可以在多尺度下找到多个关键点。
Deformable DERT 认为在特征图中包含目标相关的分布稀疏，故利用稀疏采用一些目标关键点特征生成新的特征向量。

Deformable Attention Module.

在这里插入图片描述
如图为单尺度的 Deformable Attention Module 示意图

输入是Query Feature $z_q$ 、预测目标中心位置的 $p_q$ ，目标特征 $x$
第二步：生成权重。 通过对Query Feature $z_q$ 进行线性映射，生成的特征一部分作为Sampling Offsets( $\Delta p_{mqk}$ )，其余再通过Softmax，生成Attention Weights( $A_{mqk}$ )。
第三步：关键点特征融合。
输出：关键点组成的特征向量。

单尺度的 Deformable Attention Module 计算公式

在这里插入图片描述
公式的各变量含义见资源。

多尺度的 Deformable Attention Module 计算公式

在这里插入图片描述
单尺度和多尺度的 Deformable Attention Module 的区别其实就是将输入的一个特征图变成多个特征图，所以公式里的计算从一个特征图的计算扩展到多个特征图上的计算。因为小目标的特征在高分辨率的特征图中更显著，所以多尺度的特征图当然考虑的面比较广了。

Deformable DERT 网络结构

在这里插入图片描述
上图为 Deformable DERT 的检测结构。

输入：图片的多尺度特征图。 一共有四张特征图，前三张从ResNet的stage3、stage4、stage5中得出，第四张特征图由ResNet的stage5经过一个步距为2的3x3卷积得到。特征图的维度 $C=256$ 。如下图所示
在这里插入图片描述

Deformable Transformer Encoder

复制代码

 * 输入：四个多尺度特征图。
 * 对于Encoder，reference point即第一个公式的$p_q$就等价于$z_q$中的像素。因为输入是多个尺度的特征图，而$z_q$是一个一维向量，所以引入了尺度嵌入向量$e_l$与特征图相加，就像position_embeding一样，是一个可学习的参数。就像尺度自适应因子一样。
 * 输出：与输入相同尺寸的四个特征图。

Deformable Transformer Decoder ：包含Self-Attention和Cross-Attention。在Self-Attention中，目标Query相互间交互计算相似度；在Cross-Attention中，目标Query从Encoder输出的目标特征中提取目标相关的关键点特征。 * 因为输入是卷积得出的特征图和目标query，所以Decoder的Self-Attention沿用Transformer中的Self-Attention计算。

Iterative Bounding Box Refine ：论文中使用一种迭代式输出预测框的方式。实际上 reference point 初始化为目标的中心点预测。所以预测头实际上是在预测 reference point 的相对偏移。

复制代码

 * 每一层Decoder输出的特征都会生成一个预测边界框，然后后一层对前一层的输出预测进一步refine，如下公式：

两阶段 Deformable DERT

文中还提出来一个 Deformable DERT 的变体，即两阶段 Deformable DERT 。

第一阶段：生成许多proposals，。
第二阶段：将proposal包含的图片特征直接作为目标特征。

实现细节

将多尺度特征的像素flatten作为目标Query。在实际考虑到计算量的问题后，这个两阶段 Deformable DERT 实际上是一个 Encoder-only Deformable DERT ，去掉了decoder。

快看代码，看完晚上可以去运动了~

全部评论 (0)

还没有任何评论哟~

目标检测——【Transformer】DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

目录文章侧重点 DeformableAttentionModule. 单尺度的DeformableAttentionModule计算公式多尺度的DeformableAttentionModule计...

DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION (论文解析)

DEFORMABLEDETR:DEFORMABLETRANSFORMERSFORENDTOENDOBJECTDETECTION 摘要 1介绍 2相关工作 3重新审视Transformers和DETR ...

51-22 Deformable DETR: Deformable Transformers for End-to-End Object Detection 论文精读

继FacebookAI研究团队FAIR2020年8月提出EndtoEndObjectDetectionwithTransformers，DETR模型以来，社区围绕着该模型开展了一系列工作，今天主要介绍...

【DETR用于3D目标检测】3DETR: An End-to-End Transformer Model for 3D Object Detection

3DETR:AnEndtoEndTransformerModelfor3DObjectDetection 论文简介：具体实现：基本框架编码器解码器非参数查询嵌入 3DETRm 边界框的参数化...

【使用 DETR（Transformer）进行 3D 目标检测】3DETR： An End-to-End Transformer Model for 3D Object Detection

【使用DETR（Transformer）进行3D目标检测】3DETR：AnEndtoEndTransformerModelfor3DObjectDetection 论文简介：具体实现：基本框架编...

【CVPR 2022】目标检测SOTA：DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

DINO:DETRwithImprovedDeNoisingAnchorBoxesforEndtoEndObjectDetection 摘要：论文简介：具体实现：总体框架：对比去噪训练：混合...

DETR论文笔记 End-to-End Object Detection with Transformers

文章目录摘要模型大致结构损失函数模型结构为什么有用摘要 DETR是一个使用transformer进行目标检测的一篇论文。它的亮点在将transformer应用到了视觉任务，将NLP和CV任...

DETR: End-to-End Object Detection with Transformers [暴力美学]

DETR:EndtoEndObjectDetectionwithTransformers网络解析说明： 1.个人理解，如有错误请及时提出。 2.由于自己电脑驱动较低不满足440及以上，所以目前网络中...

【论文精读】【DETR】End-to-End Object Detection with Transformers

EndtoEndObjectDetectionwithTransformers 0.论文摘要我们提出了一种新的方法，将目标检测视为一个直接的集合预测问题。我们的方法简化了检测管道，有效地消除了对许多...

论文阅读：（DETR）End-to-End Object Detection with Transformers

论文阅读：（DETR）EndtoEndObjectDetectionwithTransformers 参考解读： [论文翻译：EndtoEndObjectDetectionwithTransforme...

是否确定退出登录?

目标检测——【Transformer】DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

目录

文章侧重点

Deformable Attention Module.

单尺度的 Deformable Attention Module 计算公式

多尺度的 Deformable Attention Module 计算公式

Deformable DERT 网络结构

两阶段 Deformable DERT

实现细节

全部评论 (0)

相关文章推荐

目标检测——【Transformer】DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION (论文解析)

51-22 Deformable DETR: Deformable Transformers for End-to-End Object Detection 论文精读

【DETR用于3D目标检测】3DETR: An End-to-End Transformer Model for 3D Object Detection

【使用 DETR（Transformer）进行 3D 目标检测】3DETR： An End-to-End Transformer Model for 3D Object Detection

【CVPR 2022】目标检测SOTA：DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

DETR论文笔记 End-to-End Object Detection with Transformers

DETR: End-to-End Object Detection with Transformers [暴力美学]

【论文精读】【DETR】End-to-End Object Detection with Transformers

论文阅读：（DETR）End-to-End Object Detection with Transformers