Advertisement

论文笔记:SaccadeNet: A Fast and Accurate Object Detector

阅读量:

Author asserts that the human visual system efficiently identifies key features (a well-known observation). This rapid eye movement is referred to as a saccadic eye movement. In terms of speed, it significantly outperforms YOLO and RetinaNet.

鉴于摘要中明确列出了四个创新模块:Center Attentive Module、Corner Attentive Module、Attention Transitive Module以及Aggregation Attentive Module;同时涉及了saccade。因此可以选择省略motivation部分直接探讨method。

methods

整体流程如下:

在这里插入图片描述

作者指出相较于其他点检测方法,在边缘检测中缺乏整体认知能力的问题已被SaccadeNet弥补了;同样,在中心点检测中存在局部细节不足的问题也被克服了。
鉴于此,在中心点检测方面。
GT采用了Gaussian heatmap而非传统的二值化热图。
在目标点周围的区域给予较低的惩罚。
通过高斯权重衰减来处理半径内的所有非零点,并确保这些点与GT box生成的目标框满足IOU阈值至少达到t。
损失函数采用focal loss的变体:

L_{\text{CEM}} = -\sum_{j=1}^{C}\sum_{k=1}^{H}\sum_{l=1}^{W}t_j^{c}\cdot(1-t_k^{p,c})^\gamma \cdot\log(1-\hat{t}_k^{p,c})

在这里插入图片描述

Attention Transitive Module
该模块用于预测角点位置。其输出的空间维度为w_f \times h_f \times 2(其中数值2表示每个特征图单元输出宽度与高度信息),这些信息共同决定了最终提取到的关键点位置通过计算得到这些关键点位置

Aggregation Attentive Module 用于生成 refined locations。前两个模块的输出提供了中心点坐标及四个角点的位置信息。本模块通过双线性插值从主干网络采样这些特征作为输入数据,并输出宽度和高度偏移量以获取 refined features.

Corner Attentive Module
仅在训练过程中使用。该模块采用特征和四通道热图(四个角点)作为输入,并利用这些四通道热图进行监督学习。通过增强主干网络来获取具有区分能力的角点特征。

实说是在这里,
觉得作者在介绍自己的方法时表述得不够清晰,
很多关键点完全没有涉及。

在Implementation部分中作者具体说明了所有头模块均由两层卷积操作构成:前一层为256个3×3卷积并附带ReLU激活函数;后一层则为无激活函数的1×1卷积操作。其中Center-Attn头包含一个单独的头模块其输出结果取决于类别数量;Corner-Attn头同样包含一个单独头模块但其输出结果表现为4个角点对应的四维热力图;Attention Transitive架构则包含两个头模块分别用于计算中心点在两个方向上的偏移量以及宽度与高度;最后Aggregation-Attn架构拥有一个独立头模块其输出结果为二维向量表示宽度与高度的偏移量。

experiment

以速度为主要的优势,相比之前的方法还是很明显的:

在这里插入图片描述

每个模块的消融实验:

在这里插入图片描述

不同的角点采集方法中,还是真正意义上的角点效果最好:

在这里插入图片描述

总结

通过最终实验结果可以看出

全部评论 (0)

还没有任何评论哟~