论文翻译:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Abstract
最先进的人工智能物体检测系统主要依赖区域建议算法来推断物体的位置信息[1]、[2]等研究已成功降低了这些检测系统的运行时间成本[3]、[4]等研究已成功降低了这些检测系统的运行时间成本[5]、[6]等研究已成功降低了这些检测系统的运行时间成本[7]、[8]等研究已成功降低了这些检测系统的运行时间成本[9]、[10]等研究已成功降低了这些检测系统的运行时间成本. 在这项工作中我们提出了一种新的区域建议网络(RPN)该网络与传统的目标检测网络共享完整的图像卷积特征从而实现了几乎无成本地获取区域建议的能力. 该RPN架构是一个完全卷积架构能够同时估计每个像素位置的目标边界框及其置信度值. RPN通过端到端微分训练机制产出高质量的区域建议候选框然后将这些候选框传递给Fast R-CNN进行目标检测. 我们将RPN与Fast R-CNN融合为一个统一的深度神经网络架构——采用最新的关注机制描述语言框架其中RPN组件负责告知统一网络在图像中寻找(目标)的位置. 对于非常深的VGG-16模型其基于GPU的目标检测系统在单个图像上可达到5帧每秒(包括所有步骤)并且在PASCAL VOC 2007 2012以及COCO数据集上均达到了当前目标检测领域的最高水平仅输出约300个区域建议供Fast R-CNN使用. 在ILSVRC和COCO 2015比赛中我们的系统基于快速多通道卷积神经网络架构并结合深度注意力机制表现优异成为多个赛道上的冠军级解决方案. 所有代码均已开源.
索引术语 : 目标检测,区域建议,卷积神经网络。
1. Introduction
目标检测的最新进展是由区域提议方法(例如[4])和基于区域的卷积神经网络(RCNN)[5]的成功所驱动的。尽管基于区域的CNN在[5]中最初开发的计算成本很高,但是由于在各种提议中共享卷积,所以其成本已经大大降低了[1],[2]。 Fast R-CNN的最新版本[2]使用非常深的网络[3],实现了接近实时的速率,忽略了花在区域提案上的时间。现在, 提案是最先进的检测系统中的测试时间计算瓶颈 。
区域建议方法通常依赖廉价的特征和节约的的推理方案。选择性搜索[4]是最流行的方法之一,它贪婪地合并基于工程低级特征的超像素。然而,与有效的检测网络[2]相比,选择性搜索速度慢了一个数量级,在CPU实现中每个图像的时间为2秒。 EdgeBoxes [6]目前提供了建议质量和速度之间的最佳折中,每张图像0.2秒。尽管如此,地区建议步骤仍然像检测网络那样消耗尽可能多的运行时间。
有人可能会注意到,基于区域的快速CNN利用GPU,而在研究中使用的区域提议方法在CPU上实现,使得运行时比较不公平。加速提案计算的一个显而易见的方法是将其重新实现为GPU。这可能是一个有效的工程解决方案,但重新实施忽略了下游检测网络,因此错过了 共享计算 的重要机会。
在本文中,我们提出了一个算法性改变 —— 通过深度卷积神经网络计算提议区域 -- 结果产生一个优雅和有效的解决方案,给定检测网络的计算的情况下提案计算几乎不花时间。为此,我们引入了新颖的区域提议网络(RPNs),它们共享具有最新对象检测网络的卷积层[1],[2]。通过在测试时共享卷积,计算提议的边际成本很小(例如,每个图像10ms)。
我们观察到,基于区域的检测器所使用的卷积特征映射,如快速RCNN,也可以用于生成区域提议。在这些卷积特征之上,我们通过添加一些额外的卷积层来构建RPN,这些卷积层同时在规则网格上的每个位置处回归区域边界和对象分数。因此, RPN是一种完全卷积网络(FCN)[7],并且可以针对生成检测建议的任务进行端到端的训练 。
RPN旨在有效预测具有广泛尺度和纵横比的区域提案。与使用图像金字塔(图1,a)或过滤器金字塔(图1,b)的流行方法[8],[9],[1]作为多种尺度和长宽比的参考。我们的方案可以被认为是回归参考金字塔(图1,c),它避免了枚举多个比例或长宽比的图像或过滤器。这个模型在使用单一尺度的图像进行训练和测试时运行良好,从而有利于运行速度。

为了整合RPNs与Fast R-CNN [2]物体检测网络,在区域提议任务的微调与物体检测任务的微调之间采用交替训练方案的同时维持提议生成器的稳定性。该方案能够迅速收敛,并形成一个具有统一卷积特性的整体网络。两个任务间得以共享一致化的卷积特征
我们对PASCAL VOC检测基准[11]上的方法进行了系统性评估,并与基于快速R-CNN架构的选择性搜索算法进行了比较研究。具体而言,在测试阶段几乎完全消除了选择性搜索带来的计算开销。为了实现这一点,在实验中采用了在文献[3]中提出的极其深且计算密集型的方法结构,并成功实现了稳定的5帧每秒(FPS)性能。此外,在MS COCO数据集[12]上进行了实验验证,并利用COCO指标进一步优化了PASCAL VOC基准的数据集。代码已在GitHub平台下分别提供了MATLAB版本和Python版本供研究人员下载使用
该手稿的初稿曾在[10]发表过。自那时起,RPN框架及更快的R-CNN设计已得到广泛应用并扩展至多个研究方向,包括基于深度学习的三维物体检测[13],部分区域目标检测[14],实例分割[15]以及图像语音识别[16]等领域的突破性进展。
在ILSVRC 2015及COCO 2015两个比赛中,更快的R-CNN与RPN体系奠定了ImageNet上的目标检测任务、本地化基准测试及COCO分割赛道等多个竞赛项目的冠军基础。
值得注意的是,RPN系统完全自主学习候选区域,从而能够充分利用更为深入且表征能力更强的特征(例如文中所采用的深度残差网络[18])进行优化。
同样地, faster R-CNN架构也得到了ILSVRC 2015及COCO 2015两个比赛的主要参赛者关注和发展。
这些研究结果表明,我们提出的方法不仅是一种具有经济效益的实际解决方案,同时也是一种提升目标检测精度的有效途径。
