论文笔记之---Speed and accuracy trade-offs for modern convolutional object detectors
Abstract
这篇文章主要比较分析了三种主流的元结构 detector——Faster R-CNN、R-FCN 和 SSD 在准确率与速度两方面的性能对比。
Introduction
在从业者中挑选主流object detector(OD)作为工具使用是一项具有一定难度的选择。受限于计算资源的时间消耗和内存容量限制,在选择合适的object detector时, 仅依靠mAP等指标来做出决策仍然存在一定的局限性.
仅有少数研究对物体检测的速度进行了深入探讨;然而这些研究并未揭示速度与精度之间的具体权衡关系;这种权衡通常需要结合其他因素进行分析
3.本文的主要贡献如下:
对于目前主流的卷积探测系统的研究现状文中进行了详细分析,并对其主流OD设计中存在显著的相似性进行了探讨
b)基于TensorFlow构建了一种灵活统一的应用用于三种meta-architecture,在该应用上进行了大量的实验以考察不同检测系统的性能关系。
c) 实验证明,在该算法框架中(hin重要),通过减少proposals的数量,在保持较高检测精度的同时实现了系统运行效率的显著提升;此外该方法并未造成检测精度较之下降较多的影响;因此在与其他如SSD、R-FCN等方法对比时具有更好的性价比优势;相较于基于基于 anchor-based 的Faster R-CNN和R-FCN架构设计的模型而言,在特征提取精度方面表现出相对更强健性的SSD架构设计方案。
d)文中探讨的一些meta-architecture与feature-extractor的组合尚不为人知,在以往的研究中仍未被报道过。其中一些具有创新性的组合成功训练出COCO object detection challenge的制胜武器。
Meta-architectures
近五年来,在object detection这一领域内,神经网络已经成为了一种先进的技术手段。(随后作者介绍了Object Detection的发展历程,在此不做详细阐述。如需深入了解相关内容,请参考我的有道云笔记:[http://note.youdao.com/noteshareid=92ca896a56afdc7cc18a097b2b428323&sub=wcp1485742034944102])
本文的重点将放在最近发展的三类meta-architecture上:SSD、Faster R-CNN以及R-FCN。尽管这些方法在各自的论文中均采用了特定类型的特征提取器,在本文研究中我们将分别从这些元结构中的特征提取器中分离出来。这样就能使它们能够采用任意形式的特征提取器。
Single Shot Detector (SSD):文中将SSD被定义为通过单个前馈神经网络直接用于预测类别以及anchor偏移量的方法,并不依赖于逐proposal阶段的分类操作。此外,Multibox与RPN均采用了这种方法来进行类不可知(class-agnostic)的目标检测。
以Faster R-CNN为例,在检测任务中主要分为两个阶段进行。首先生成候选区域边界,并从中间卷积层提取出特征数据来预测候选区域边界。接着利用这些候选区域边界来进行特征剪切操作后将其传递至后续的卷积层(如fc6和fc7)进行分类并调整候选框位置。
R-FCN的主要区别在于其生成区域提议层之前对特征进行裁剪而不是与生成区域提议层同一层。这种方法通过实现计算量的最小化来提高效率。
具体的过程描述见下面三张图:

注:SSD中直接得出分类和anchor offsets

注:该模型首先通过proposal generator生成相应的类别预测及候选区域;随后将这些候选框传递至模型内部指定的中间层进行特征提取操作;接着将其输入至fc6及fc7层(如图所示的部分以蓝色矩形标注);从而完成整个检测流程并输出结果区域

在这一阶段中,Box Classifier的作用是将box proposals返回到特征层的最后一层(即图示中的三个蓝色矩形之后的一层),随后预测过程随之展开(如图中的蓝色小矩形所示)。
Experimental setup
先前的研究中所采用的技术架构及其优化目标(其中一些侧重于提高准确性、另一些则关注运行效率)各有不同。因此难以实现对这些方法的直接对比。基于此,在本文中我们采用了TensorFlow这一平台并对其网络架构进行了系统性重构。
这块涉及体系结构设置、损失函数设置、输入规模设置以及超参数优化,并且具体的细节可参考原文内容
Results
主要看这张图:

文中最后一块是对上述实验过程的分析,主要有这么几个方面:
a)准确率和所需时间
从整体来看,R-FCN和SSD模型展现出较高的速度优势.相比之下,Faster R-CNN虽然运行速度稍慢,但其识别精度依然保持在较高水平.然而,当我们将region proposal的数量加以限制时,Faster R-CNN仍能维持与前两者相当的速度水平.图中也画出了一条虚线,即optimality frontier,这意味着如果要达到这条虚线所代表的精确度水平则必须以牺牲速度为代价.
b)最优化边界上的关键点(Critical points on the optimality frontier)
c)特征提取器带来的影响
图三清晰地显示,在分类与检测这两个维度上确实存在显著关联,并且这一发现仅针对FasterR-CNN与R-FCN这两种模型有效。

d)物体尺寸的影响
不出意外所有的方法在较大的物体上效果更好。
e)图片尺寸的影响
图片分辨率与检测精度之间存在密切关系。在本研究中发现,在将分辨率降低2%的情况下… 从而降低了检测精度。然而… 同时也会缩短处理时间。
f)proposal数量的影响
g)FLOP分析
h)内存分析
....具体的细节还是得自己去读paper
在最后一段关于Example detections的内容中,请注意以下几点:首先,在这一部分详细呈现了在同一图像上进行多选检测器边对边比较的情况;其次,在示例1中展示了一个典型的对比结果;如图2所示,则是一个具体的案例;请确保理解这些关键点并注意它们之间的关系。

后面还有好多张对比图,大饱眼福呢~
