论文阅读:Scale-Aware Trident Networks for Object Detection
TridentNet
在目标检测任务中,在同一图像内物体尺寸的差异性使得精确检测难度增加。这种差异性导致难以同时有效检测到尺寸过小或过大的物体。这即为尺度变化带来的挑战。一种直接有效的解决方案是使用图像金字塔这一技术手段。传统的手工特征提取方法通过构建不同分辨率的图像金字塔来处理这一问题,在深度学习领域中如FPN等多尺度架构则通过生成多分辨率特征图来模拟传统图像金字塔的效果。为了使模型能够更好地适应不同尺寸的目标,在CVPR 2018年会议提出的 scale normalization 技术实现了自动适应物体尺度的需求。

无论是基于图像的金字塔结构还是基于特征的金字塔结构,在模型感知不同尺寸对象的能力上有共同目标。然而每种方法都存在各自的不足:基于图像分辨率构建的方法在推理速度上存在明显劣势;相比之下,在提取细节能力上有所欠缺;这导致在不同尺度特征的一致性方面有所妥协。本节中的图(c)展示了本文所设计的核心模块——通过膨胀卷积实现多尺度感知——以及其在参数共享性和感受野多样性上的创新设计。

研究发现表明,在验证感受野大小对不同尺寸物体检测效果的影响时发现:增大感受野(即增加dilated系数)确实能够提升大尺寸物体的检测效果;然而这一策略反而会导致小尺寸物体检测效果的下降。基于此提出:一个直观的想法就是通过多级感受野分支的融合来综合考虑不同尺寸物体的特征提取需求。具体而言,在backbone结构中仅需在对应位置引入dilated卷积即可实现该功能而无需额外调整权重参数。
但是仅添加分支……情况

l_i与u_i分别代表第i个分支的尺寸下限及上限。值得注意的是TridentNet所划分的三个区间分别为[0,90]、[30,160]以及[90,∞),并非完全没有重叠区域。对于每一个ground truth样本只会将该ground truth样本分配到其所属分支对应的anchor位置。在推断过程中(inference),每个分割块(branch)首先会对不符合尺寸范围的结果进行过滤,并对所有分割块处理后的结果执行非极大值抑制(NMS)操作。为了加快推断速度还可以选择仅使用一个分割块来近似整个网络的效果其中文章中采用的是中间尺寸分割块
总体而言,《TridentNet》共有三项创新成果:基于不同感受野的设计模块、具有尺度感知能力的训练策略以及各模块间的交互机制。通过一系列实验验证了各项创新的有效性,并实现了与《DCN》架构的有效融合。

当然该篇文章进行了相关实验,并对不同分支数量对性能的影响展开了对比研究。经研究发现3个分支较为适宜。我对于文章中TridentBlock应放置于何处的问题非常关注。该研究在ResNet-59架构下的4个阶段进行了实验验证

我认为应当将其放置在高层。需要确定多少卷积层进行dilated操作,并且文章进行了相关实验。

可以观察到当达到或超过10个block时网络性能趋于稳定;这表明当分支间的感受野差异足够大时网络性能趋于稳定。
