极简笔记 DetNet: A Backbone network for Object Detection
极简笔记 DetNet: A Backbone network for Object Detection
文章的核心内容聚焦于专为detection任务设计的一种新型backbone网络:DetNet。现有检测网络的主要方法通常结合分类网络、FPN(特征金字塔网络)以及RPN(区域建议网络)来进行定位工作。大多数分类网络通过缩小深度层的空间尺寸来扩大像素级的感受范围;然而这一做法在一定程度上限制了大物体定位精度的表现。针对这一问题,文章提出了一种创新性解决方案:在深层结构中采用率=2的空间空洞卷积替代传统的3x3瓶颈层卷积,在保持空间尺寸不变的前提下,并适度增加计算开销以扩大像素级的感受能力;从而提高了检测的整体准确性。为了控制计算复杂度,在深层部分保持通道数量在256个水平上,并未进行进一步扩展以避免不必要的计算负担。

文章主要对实验室中的ResNet50-FPN结构进行了系统性对比分析,并在此基础上构建了相应的DetNet59结构如图所示。DetNet是对骨架网络进行改进而形成的,在此基础之上可类推地添加FPN模块。值得注意的是尽管DetNet59网络模型的计算开销达到4.8G FLOPs相比起基础版本ResNet50仅3.8G FLOPs但其算力差距并不足以解释性能上的提升因此研究团队又补充加入了ResNet101这一7.6G FLOPs级别的对比实验结果表明在目标检测任务中采用DetNet架构相比传统方法虽然算力有所增加却能实现更优的检测效果。

但是接下来文章略显松懈,并未进行深入分析。仅限于与ResNet50的对比研究,在比较average precision(AP)和average recall(AR)时大中小三种尺度的物体DetNet59的表现均优于ResNet50这一结果可以看出。此外,在进一步分析时引入Resnet101可能会使结论更具说服力


该文章采用的是dilated residual block结构,在裁剪模块中采用了单通道卷积替代恒等映射。对此也进行了相关实验分析以验证这种改进措施的效果。


由于DetNet仅是一个基础架构,并且能够适用其他类型的网络架构,在文章末尾部分将DetNet59整合到MaskRCNN框架中进行验证,并验证后显示出性能确实有所提升。

我认为该文章的一个不足之处在于其DRN结构采用了相同的rate值,并未能覆盖全部像素。此外,在具体实现中我们还可以考虑采用现有的某些方法,在特定区域交替配置不同的率(如1、2、5)配合空洞卷积来全面覆盖特征图
