Advertisement

【论文精读】【RCNN】Rich feature hierarchies for accurate object detection and semantic segmentation

阅读量:
在这里插入图片描述

0.论文摘要

在权威的的PASCAL VOC数据集上测量的目标检测性能在过去几年中已经稳定下来。性能最好的方法是复杂的集成系统,通常将多个低级图像特征与高级上下文相结合。在本文中,我们提出了一种简单且可扩展的检测算法,相对于之前在VOC 2012上的最佳结果,该算法将平均精度(mAP)提高了30%以上,实现了53.3%的mAP。我们的方法包涵了两个关键思想:(1)可以将高表达能力的卷积神经网络(CNN)应用于自下而上提取候选框的特征,以便定位和分割目标;(2)当标记的训练数据稀缺时,辅助任务的监督预训练,随后是特定领域的微调,产生了显著的性能提升。因为我们将候选框与CNN相结合,所以我们将我们的方法称为R-CNN:具有CNN特征的区域。我们还展示了一些实验,这些实验提供了对网络学习内容的洞察,揭示了图像特征的丰富层次。

1.研究背景

特征很重要。过去十年在各种视觉识别任务上的进展在很大程度上基于SIFT[26]和HOG[7]的使用。但是,如果我们看看权威的视觉识别任务PASCAL VOC目标检测[12]的表现,人们普遍认为,2010-2012年期间进展缓慢,通过建立集成系统和采用成功方法的微小变体获得的收益很小。
SIFT和HOG是块方向直方图,这种表示我们可以大致与V1的复杂细胞联系起来,V1细胞是灵长类视觉通路中的第一个皮层区域。但我们也知道,识别发生在下游的几个阶段,这表明可能存在分层、多阶段的过程来计算对视觉识别来说甚至更有用的特征。
福岛邦彦的神经认知机是对这一过程的早期尝试。然而,神经认知机缺乏监督训练算法。LeCun等[23]提供了缺失的算法,表明通过反向传播的随机梯度下降可以训练卷积神经网络(CNN),这是一类扩展神经认知机的模型。

CNN在20世纪90年代被大量使用(例如[24]),但随着支持向量机的兴起,CNN不再流行,特别是在计算机视觉领域。2012年,Krizhevsky等[22]通过在ImageNet大规模视觉识别挑战(ILSVRC)上显示出显著更高的图像分类准确性,重新点燃了对CNN的兴趣[9,10]。他们的成功源于在120万张标记图像上训练大型CNN,以及在LeCun的CNN上的一些调整(例如,max(x,0)max(x, 0)纠正非线性和“dropout”正则化)。

在ILSVRC 2012研讨会期间,对ImageNet结果的重要性进行了激烈的辩论。中心问题可以归结为以下一点:ImageNet上的CNN分类结果在多大程度上推广到PASCAL VOC挑战上的目标检测结果?

我们通过弥合图像分类和目标检测之间的鸿沟来决定性地回答这个问题。本文首次表明,与基于更简单的类HOG特征的系统相比,CNN可以在PASCAL VOC上带来更高的目标检测性能。实现这一结果需要解决两个问题:使用深度网络定位目标和仅使用少量带注释的检测数据训练高表示能力模型。

与图像分类不同,检测需要定位图像中的(可能是许多)目标。一种方法将定位框定为回归问题。然而,Szegedy等的工作[31],与我们自己的方法一致,表明这种策略在实践中可能不会很好(他们报告了VOC 2007的mAP为30.5%,而我们的方法实现了58.5%)。另一种方法是建造一个滑动窗检测器。CNN已经以这种方式使用了至少二十年,通常用于受约束的目标类别,如人脸[28,33]和行人[29]。为了保持高空间分辨率(特征图的长和宽),这些CNN通常只有两个卷积层和池化层(因为不能太深,太深了下采样次数多,要保留大的感受野)。我们还考虑采用滑动窗口方法。然而,在我们具有五个卷积层的网络中,高层单元在输入图像中具有非常大的感受野(195 × 195像素)和步长(32 × 32像素),这使得滑动窗口范例中的精确定位成为一个开放的技术挑战。

相反,我们通过在“使用区域的识别”范式中操作来解决CNN的定位问题,正如Gu等所主张的那样在[18]中。在测试时,我们的方法为输入图像生成大约2000个与类别无关的候选框,使用CNN从每个候选框中提取固定长度(4096维)的特征向量,然后使用类别特定的线性支持向量机对每个区域进行分类。我们使用一种简单的技术(仿射变形)来计算来自每个候选框的固定大小的CNN输入,而不管区域的形状如何。图1展示了我们方法的概述,并强调了我们的一些结果。由于我们的系统将候选框与CNN相结合,我们将该方法命名为R-CNN:具有CNN特征的候选框。
在这里插入图片描述

图1:目标检测系统概述。我们的系统(1)获取输入图像,(2)提取大约2000个自下而上的候选框,(3)使用大型卷积神经网络(CNN)计算每个建议的特征,然后(4)使用特定于类的线性支持向量机对每个区域进行分类。R-CNN在PASCAL VOC 2010上实现了53.7%的平均精度(mAP)。相比之下,[32]报告了35.1%的mAP使用相同的候选框,但采用了空间金字塔和视觉词袋方法。流行的DPM方法表现为33.4%。

检测中面临的第二个挑战是标记数据稀缺,当前可用的数量不足以训练大型CNN。该问题的常规解决方案是使用无监督的预训练,随后是有监督的微调(例如[29])。本文的第二个主要贡献是表明,在大型辅助数据集(ILSVRC)上进行监督预训练,然后在小型数据集(PASCAL)上进行特定领域的微调,是在数据稀缺时学习高表示能力CNN的有效范例。在我们的实验中,检测微调将mAP性能提高了8个百分点。微调后,我们的系统在VOC 2010上实现了54%的mAP,相比之下,DPM为33%[14,17]。

我们的系统也相当高效。唯一的类特定的计算是一个合理的小矩阵向量积和贪婪的非最大抑制。这种计算特性来自所有类别共享的特征,并且比以前使用的区域特征维度低两个数量级(参见[32])。类似HOG的特征的一个优点是它们的简单性:更容易理解它们携带的信息(尽管[34]表明我们的直觉可能会让我们失望)。我们能洞察CNN学到的表象吗?也许拥有超过5400万个参数的全连接层是关键?他们不是。我们对CNN进行了“脑叶切除”,发现其参数中令人惊讶的大比例(94%)可以被移除,而检测精度仅略有下降。相反,通过探测网络中的单元,我们看到卷积层学习了一组不同的丰富特征(图3)。
在这里插入图片描述
图3:六个pool5单元的顶部区域。感受野和激活值用白色绘制。有些单位与概念对齐,如人物(第1行)或文本(第4行)。其他单元捕捉纹理和材质属性,如点阵列(2)和镜面反射(6)。

理解我们方法的误差模式对于改进它也是至关重要的,因此我们报告了Hoiem等人的检测分析工具的结果[20]。作为这一分析的直接结果,我们证明了一个简单的边界框回归方法显著减少了错误定位,这是主要的错误形式。在开发技术细节之前,我们注意到,因为R-CNN对区域进行操作,所以很自然地将其扩展到语义分割的任务。稍加修改,我们还在PASCAL VOC分割任务上获得了最先进的结果,在VOC 2011测试集上的平均分割准确率为47.9%。

2.基于RCNN的目标检测

我们的目标检测系统由三个模块组成。第一个生成独立于类别的候选框。这些候选框定义了我们的检测器可用的候选检测集。第二个模块是一个大型卷积神经网络,从每个候选框提取固定长度的特征向量。第三个模块是一组特定于类的线性支持向量机。在本节中,我们将介绍每个模块的设计决策,描述它们的测试时间使用情况,详细说明它们的参数是如何学习的,并展示PASCAL VOC 2010-12的结果。

2.1 模型设计

2.1.1 候选框

各种最近的论文提供了生成类别独立的候选框的方法。例子包括:客观性[1],选择性搜索[32],类别无关的目标建议[11],约束参数最小分割(CPMC)[5],多尺度组合分组[3],以及Cireşan等[6],他们通过将CNN应用于规则间隔的方形作物来检测有丝分裂细胞,这是候选框的特例。虽然R-CNN对特定候选框方法不可知,但我们使用选择性搜索来实现与先前的检测工作比较。

2.1.2 特征提取

我们使用Krizhevsky等[22]描述的CNN的Caffe[21]实现从每个候选框中提取4096维特征向量。通过通过五个卷积层和两个完全连接的层正向传播减去平均值的227 × 227 RGB图像来计算特征。我们建议读者参考[21,22]了解更多网络架构细节。

为了计算候选框的特征,我们必须首先将该区域中的图像数据转换为与CNN兼容的形式(其架构需要固定的227 × 227像素大小的输入)。在任意形状区域的许多可能变换中,我们选择最简单的。无论候选框的大小或纵横比如何,我们都会将其周围紧密边界框中的所有像素扭曲到所需的大小。在扭曲之前,我们扩大边界框,以便在扭曲大小下,原始框周围正好有p个像素的扭曲图像上下文(我们使用p=16)。图2显示了扭曲训练区域的随机抽样。补充材料讨论了warp的替代方法。
在这里插入图片描述

2.2 测试阶段检测

在测试时,我们对测试图像选择性搜索,以提取大约2000个候选框(我们在所有实验中使用选择性搜索的“快速模式”)。我们变形每个候选框,并通过CNN向前传播它,以便从期望的层中读出特征。然后,对于每个类,我们使用为该类训练的支持向量机对每个提取的特征向量进行评分。给定图像中的所有得分区域,我们应用贪婪的非极大抑制(独立地用于每个类),如果该区域与大于学习阈值的较高得分选定区域具有并交(IoU)重叠,则拒绝该区域。

两个属性使检测变得高效。首先,所有CNN参数在所有类别中共享。第二,与其他常见方法相比,由CNN计算的特征向量是低维的,例如具有视觉词袋编码的空间金字塔。例如,UVA探测系统[32]中使用的特征比我们的大两个数量级(360k对4k维)。这种共享的结果是,计算候选框和特征所花费的时间(GPU上的13秒/图像或CPU上的53秒/图像)在所有类中分摊。唯一特定于类的计算是特征和SVM权重之间的点积以及非极大值抑制。实际上,一幅图像的所有点积都被批量处理成一个矩阵——矩阵积。特征矩阵通常为2000 × 4096(2000个候选框,4096维特征),SVM权重矩阵为4096 × N,其中N是类别的数量。(2000,4096)*(4096,N)=(2000,N)2000个候选框在N个类上的概率

该分析表明,R-CNN可以扩展到数千个目标类,而无需求助于近似技术,如哈希。即使有100k个类,在现代多核CPU上,生成的矩阵乘法也只需要10秒钟。这种效率不仅仅是使用候选框和共享特征的结果。由于其高维特性,UVA系统将慢两个数量级,同时仅存储100k线性预测值就需要134GB的内存,而我们的低维特性仅需要1.5 GB。将R-CNN与Dean等人最近的工作进行对比也很有趣。使用DPMs和哈希的可扩展检测[8]。他们报告说,当引入10k干扰物类时,在每张图像5分钟的时间内,VOC 2007上的mAP约为16%。使用我们的方法,10k检测器可以在CPU上大约一分钟,并且因为没有进行近似,mAP将保持在59%(第3.2节)。

2.3 训练

2.3.1 有监督的预训练

我们在带有图像级注释(即,没有边界框标签)的大型辅助数据集(ILSVRC 2012)上有区别地预训练CNN。使用开源Caffe CNN库进行预训练[21]。简而言之,我们的CNN几乎与Krizhevsky等[22]的表现相当。在ILSVRC 2012验证集上获得的前1错误率高出2.2个百分点。这一差异是由于培训过程的简化。

2.3.2 特定域微调

为了使我们的CNN适应新的任务(检测)和新的领域(扭曲的VOC窗口),我们仅使用来自VOC的扭曲候选框继续CNN参数的随机梯度下降(SGD)训练。除了用随机初始化的21路分类层(用于20个VOC类别和背景)替换CNN特定于ImageNet的1000路分类层之外,CNN架构保持不变。我们将所有与地面实况框重叠≥0.5 IoU的候选框视为该框类别的正样本,其余的视为负样本。我们以0.001的学习速率(初始预训练速率的1/10)开始SGD,这允许微调在不破坏初始化的情况下取得进展。在每次SGD迭代中,我们均匀采样32个正窗口(在所有类上)和96个背景窗口,以构建大小为128的小批量处理。我们将采样偏向正窗口,因为与背景相比,正窗口极其罕见。

2.3.3 目标类别分类器

考虑训练一个二元分类器来检测汽车。很明显,紧紧包围汽车的图像区域应该是一个正样本。同样,很明显,一个与汽车无关的背景区域应该是一个负样本。不太清楚的是如何标记与汽车部分重叠的区域。我们用IoU重叠阈值来解决这个问题,低于该阈值的区域被定义为负。重叠阈值0.3是通过对验证集上的{0,0.1,…,0.5}进行网格搜索而选择的。我们发现仔细选择这个阈值是很重要的。如[32]所示,将其设置为0.5,会减少5点mAP。同样,将其设置为0会减少4点mAP。正样本被简单地定义为每个类的基本事实边界框。

一旦提取了特征并应用了训练标签,我们就为每个类优化一个线性SVM。由于训练数据太大,不适合内存,我们采用标准的hard negative mining方法[14,30]。hard negative mining收敛很快,实际上,在所有图像上仅一次通过后,mAP就停止增加。在补充材料中,我们讨论了为什么在微调和SVM训练中正例和负例的定义不同。我们还讨论了为什么有必要训练检测分类器,而不是简单地使用来自微调CNN的最后一层(fc8)的输出

2.4 PASCAL VOC 2010-12的结果

遵循PASCAL VOC最佳实践[12],我们在VOC 2007数据集上验证了所有设计决策和超参数(第3.2节)。对于VOC 2010-12数据集的最终结果,我们微调了VOC 2012 train上的CNN,并优化了VOC 2012 trainval上的检测支持向量机。对于两种主要算法变体(有和没有边界框回归)中的每一种,我们只向评估服务器提交了一次 测试结果。

表1显示了VOC 2010完整结果。我们将我们的方法与四个强基线进行了比较,包括SegDPM[15],它将DPM检测器与语义分割系统的输出[4]相结合,并使用额外的检测器间上下文和图像分类器重新评分。最恰当的比较是Uijlings等[32]的UVA系统,因为我们的系统使用相同的候选框算法。为了对区域进行分类,他们的方法构建了一个四级空间金字塔,并用密集采样的SIFT、扩展的OpponentSIFT和RGBSIFT描述符填充它,每个向量都用4000字的码本量化。使用直方图交集核SVM进行分类。与他们的多特征、非线性核SVM方法相比,我们在mAP方面实现了较大的改进,从35.1%到53.7%,同时速度也快得多(第2.2节)。我们的方法在VOC 2011/12测试中实现了类似的性能(53.3%mAP)。

3.可视化、消融和误差模式

3.1 可视化学习的特征

第一层滤波器可以直接可视化,易于理解[22]。它们捕捉定向边缘和对手颜色。理解后续层更具挑战性。Zeiler和Fergus在[36]中提出了一种视觉上吸引人的反卷积方法。我们提出了一个简单的(和补充的)非参数方法,直接显示网络学习了什么。这个想法是在网络中挑出一个特定的单元(特征),并把它当作一个独立的目标检测器来使用。也就是说,我们在一大组被搁置的候选框(大约1000万个)上计算单元的激活,从最高到最低激活对候选框进行排序,执行非极大值抑制,然后显示得分最高的区域。我们的方法让选定的单元通过准确显示它触发的输入来“为自己代言”。我们避免平均,以便看到不同的视觉模式,并深入了解由单位计算的不变性。

我们从第5个池化层可视化单元,这是网络第五层也是最后一层卷积层的最大池化输出。第5个最大池化层特征图的尺寸为6 × 6 × 256=9216维。忽略边界效应,第5个最大池化层单元在原始227 × 227像素输入中具有195 × 195像素的感受野。中央pool5单元具有近乎全局的视图,而靠近边缘的单元具有较小的修剪支撑。

图3中的每一行都显示了我们在VOC 2007 trainval上微调的CNN中pool5单元的前16次激活。256个功能独特的单元中的6个被可视化(补充材料包括更多)。这些选择单元来展示网络学习的代表性样本。在第二行,我们看到一个向狗脸和点阵列激活的单位。对应于第三行的单元是红色斑点检测器。还有人脸检测器和更抽象的图案,如文本和带窗口的三角形结构。该网络似乎学习了一种将少量类调整特征与形状、纹理、颜色和材料属性的分布式表示结合在一起的表示。随后的完全连接层fc6具有模拟这些丰富特征的大量组合的能力。
在这里插入图片描述

图3:六个pool5单元的顶部区域。感受野和激活值用白色绘制。有些单位与概念对齐,如人物(第1行)或文本(第4行)。其他单元捕捉纹理和材质属性,如点阵列(2)和镜面反射(6)。

3.2 消融实验

3.2.1 逐层性能,无需微调

为了了解哪些层对检测性能至关重要,我们分析了CNN最后三层的VOC 2007数据集的结果。第3.1节简要描述了第5池化层。最后两层总结如下。fc6层完全连接到第5池化层。为了计算特征,它将4096 × 9216权重矩阵乘以pool5特征图(重塑为9216维向量),然后添加偏差向量。这个中间矢量是分量半波整流ReLU的(x←max(0,x))(x ← max(0, x))。fc7层是网络的最后一层。它是通过将fc6计算的特征乘以4096 × 4096权重矩阵,并类似地添加偏差向量和应用半波整流ReLU来实现的。

我们首先查看未经PASCAL微调的CNN结果,即所有CNN参数仅在ILSVRC 2012上进行预训练。逐层分析性能(表2第1-3行)显示,fc7的特性比fc6的特性更差。这意味着29%(约1680万)的CNN参数可以在不降低mAP的情况下被删除。更令人惊讶的是,移除fc7和fc6会产生相当好的结果,即使pool5特征仅使用CNN参数的6%进行计算。CNN的代表性很大程度上来自于它的卷积层,而不是来自于他大得多的密集连接层。这一发现表明,通过仅使用CNN的卷积层,在计算任意大小图像的密集特征图(在HOG意义上)中具有潜在的效用(类似Overfeat和VGG)。这种表示将支持在pool5特性之上使用滑动窗口检测器(包括DPM)进行实验。

3.2.2 一层一层的性能,微调

我们现在来看看CNN在VOC 2007 trainval上微调参数后的结果。改进是惊人的(表2第4-6行):微调将mAP提高了8.0个百分点,达到54.2%。fc6和fc7的微调提升比pool5大得多,这表明从ImageNet学习的pool5特征是通用的(在Imagenet数据集预训练时候提取的),并且大部分改进是通过在它们之上学习特定领域的非线性分类器获得的(预训练卷积层提取通用特征,微调全连接层提取特定领域特征)。

3.2.3 最近几种特征学习方法的比较

在PASCAL VOC检测中尝试的特征学习方法相对较少。我们来看看最近两种建立在DPM上的方法。作为参考,我们还包括了基于HOG的标准DPM的结果[17]。第一种DPM特征学习方法DPM ST[25]用“草图标记”概率的直方图来增强HOG特征。直观地说,草图标记是穿过图像面片中心的轮廓的紧密分布。草图标记概率由随机森林在每个像素处计算,该随机森林被训练成将35 × 35像素面片分类到150个草图标记或背景中的一个。第二种方法,DPM HSC[27],用稀疏代码直方图(HSC)代替HOG。为了计算HSC,使用100个7 × 7像素(灰度)原子的学习字典在每个像素处求解稀疏代码激活。由此产生的激活以三种方式整流(全波和两个半波),空间池化,单位l2归一化,然后功率转换(x←sign(x)∣x∣α)(x ← sign(x)|x|^α)。

所有R-CNN变体都大大优于三个DPM基线(表2第8-10行),包括使用特征学习的两个基线。与仅使用HOG功能的最新版本DPM相比,我们的地图高出20多个百分点:54.2%比33.7%,相对提高了61%。HOG和sketch令牌的组合比单独的HOG产生2.5个mAP,而HSC比HOG提高4个mAP(当在内部与它们的私有DPM基线进行比较时——两者都使用DPM的非公共实现,性能不如开源版本[17])。这些方法分别获得29.1%和34.3%的mAPs。
在这里插入图片描述

表2:VOC 2007测试的检测平均精度(%)。第1-3行显示了没有微调的R-CNN性能。第4-6行显示了CNN在ILSVRC 2012上预训练,然后在VOC 2007 trainval上微调(FT)的结果。第7行包括一个简单的边界框回归(BB)阶段,可减少定位误差(第3.4节)。第8-10行将DPM方法作为一个强有力的基线。第一种方法仅使用HOG,而下两种方法使用不同的特征学习方法来增强或替换HOG。

3.3 检测误差分析

我们应用了Hoiem等[20]的优秀检测分析工具。为了揭示我们的方法的错误模式,理解微调如何改变它们,并查看我们的错误类型与DPM相比如何。分析工具的完整总结超出了本文的范围,我们鼓励读者参考[20]以了解一些更好的细节(如“标准化AP”)。由于分析最好在相关图的上下文中进行,我们在图4和图5的标题中进行讨论。
在这里插入图片描述
图4:排名靠前的假阳性(FP)(把背景误判为目标)类型的分布。每个图显示了FP类型的演变分布,因为按照分数递减的顺序考虑了更多的FP。每个FP被分为4种类型中的1种:Loc-差定位(IoU与0.1和0.5之间的正确类别重叠的检测,或重复预测;分类正确但是定位误差比较大);Sim-与类似类别混淆;Oth——与不同目标类别的混淆;BG-FP即背景被误判为目标。与DPM(见[20])相比,我们明显更多的错误是由于定位不良,而不是与背景或其他目标类别混淆,这表明CNN特征比HOG更具区分性。不好的定位可能是由于我们使用自下而上的候选框和从预训练CNN进行全图像分类中学到的位置不变性。第三列展示了我们简单的边界框回归方法如何修复许多定位错误。
在这里插入图片描述

图5:对物体特征的敏感度。每个图显示了六个不同目标特征(遮挡、截断、边界框区域、纵横比、视点、部分可见性)内最高和最低性能子集的平均值(超过类)归一化AP(参见[20])。我们展示了我们的方法(R-CNN)有和没有微调(FT)和边界框回归(BB)以及DPM voc-release5的图。总体而言,微调不会降低灵敏度(最大值和最小值之间的差异),但会显著改善几乎所有特性的最高和最低性能子集。这表明微调不仅仅是改善纵横比和边界框面积的最低性能子集,正如人们可能根据我们如何扩充网络输入而猜测的那样。相反,微调提高了所有特征的鲁棒性,包括遮挡、截断、视点和部件可见性。

3.4 边界框回归

在误差分析的基础上,我们实现了一种简单的方法来减少定位误差。受DPM[14]中采用的边界框回归的启发,我们训练一个线性回归模型来预测一个新的检测窗口,给定选择性搜索候选框的pool5特征。补充材料中给出了全部细节。表1、表2和图4中的结果显示,这种简单的方法修复了大量定位错误的检测,将mAP提高了3到4个点。
在这里插入图片描述

表1 VOC 2010测试的检测平均精度(%)。R-CNN与UVA和Regionlets最直接可比,因为所有方法都使用选择性搜索候选框。第3.4节描述了边界框回归(BB)。在出版时,SegDPM是PASCAL VOC排行榜上表现最好的。†DPM和SegDPM使用其他方法未使用的上下文重新评分。
在这里插入图片描述

表2:VOC 2007测试的检测平均精度(%)。第1-3行显示了没有微调的R-CNN性能。第4-6行显示了CNN在ILSVRC 2012上预训练,然后在VOC 2007 trainval上微调(FT)的结果。第7行包括一个简单的边界框回归(BB)阶段,可减少定位误差(第3.4节)。第8-10行将DPM方法作为一个强有力的基线。第一种方法仅使用HOG,而下两种方法使用不同的特征学习方法来增强或替换HOG。

4.语义分割

区域分类是用于语义分割的标准技术,允许我们容易地将R-CNN应用于PASCAL VOC细分挑战。为了便于与当前领先的语义分割系统(称为“二阶池”的O2P)[4]进行直接比较,我们在他们的开源框架内工作。O2P使用CPMC为每张图像生成150个候选框,然后使用支持向量回归(SVR)预测每个类别的每个区域的质量。他们的方法的高性能是由于CPMC区域的质量和多种特征类型(SIFT和LBP的丰富变体)的强大二阶池。我们还注意到Farabet等[13]最近在使用CNN作为多尺度逐像素分类器的几个密集场景标记数据集(不包括PASCAL)上展示了良好的结果。我们遵循[2,4]并扩展PASCAL分割训练集,以包括Hariharan等[19]提供的额外注释。设计决策和超参数在VOC 2011验证集上进行交叉验证。最终测试结果只评估了一次。

4.1 用于分割的CNN特征

我们评估了三种计算CPMC区域特征的策略,所有这些策略都是从将区域周围的矩形窗口扭曲到227 × 227开始的。第一种策略(完整)忽略区域的形状,直接在扭曲的窗口上计算CNN特征,就像我们对检测所做的那样。但是,这些特征忽略了区域的非矩形形状。两个区域可能有非常相似的边界框,但重叠很少。因此,第二种策略(fg)仅在区域的前景遮罩上计算CNN特征。我们用平均输入替换背景,使得平均减去后背景区域为零。第三种策略(full+fg)简单地连接了full和fg特性;我们的实验验证了它们的互补性。

4.2 VOC 2011的结果

表3总结了我们与O2P相比的VOC 2011验证集的结果。(完整的分类结果见补充材料。)在每个特征计算策略中,fc6层总是优于fc7,下面的讨论指的是fc6的特点。fg策略略优于full,表明掩蔽区域形状提供了更强的信号,符合我们的直觉。然而,full+fg实现了47.9%的平均准确率,这是我们4.2%的最佳结果(也略微优于O2P),表明即使给定full+fg特征,full特征提供的上下文也是高度信息化的。值得注意的是,在单核上训练20个SVR需要一个小时,而在O2P特性上训练需要10多个小时。在表4中,我们展示了VOC 2011测试集的结果,将我们表现最佳的方法fc6(full+fg)与两个强基线进行了比较。我们的方法实现了21个类别中11个类别的最高分割精度,以及跨类别平均的47.9%的最高总体分割精度(但在任何合理的误差范围内,可能与O2P结果相关)。更好的性能可能会通过微调来实现。

5.总结

近年来,目标检测性能停滞不前。性能最好的系统是将多个低级图像特征与来自目标检测器和场景分类器的高级上下文相结合的复杂集成。本文提出了一种简单且可扩展的目标检测算法,该算法比PASCAL VOC 2012上以前的最佳结果相对改进了30%。我们通过两种思路实现了这一成绩。第一种是将高表示能力卷积神经网络应用于自下而上的候选框,以便定位和分割目标。第二个是训练的范例-当标记的训练数据稀缺时,训练大型CNN。我们表明,对于具有丰富数据的辅助任务(图像分类),在监督下预训练网络,然后对于数据稀缺的目标任务(检测)微调网络是非常有效的。我们推测“监督预训练/特定领域微调”范式对于各种数据稀缺的视觉问题将非常有效。我们最后指出,我们通过使用来自计算机视觉和深度学习的经典工具(自下而上的候选框和卷积神经网络)的组合来实现这些结果是非常重要的。这两者不是对立的科学探究路线,而是自然和不可避免的伙伴。

参考文献

  • [1] B. Alexe, T. Deselaers, and V. Ferrari. Measuring the objectness of image windows. TPAMI, 2012.
  • [2] P. Arbel ́ aez, B. Hariharan, C. Gu, S. Gupta, L. Bourdev, and J. Malik. Semantic segmentation using regions and parts. In CVPR, 2012.
  • [3] P. Arbel ́ aez, J. Pont-Tuset, J. Barron, F. Marques, and J. Malik. Multiscale combinatorial grouping. In CVPR, 2014.
  • [4] J. Carreira, R. Caseiro, J. Batista, and C. Sminchisescu. Semantic segmentation with second-order pooling. In ECCV, 2012.
  • [5] J. Carreira and C. Sminchisescu. CPMC: Automatic object segmentation using constrained parametric min-cuts. TPAMI, 2012.
  • [6] D. Cires ̧an, A. Giusti, L. Gambardella, and J. Schmidhuber. Mitosis detection in breast cancer histology images with deep neural networks. In MICCAI, 2013.
  • [7] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005.
  • [8] T. Dean, M. A. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, and J. Yagnik. Fast, accurate detection of 100,000 object classes on a single machine. In CVPR, 2013.
  • [9] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012). http://www.image-net.org/ challenges/LSVRC/2012/.
  • [10] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A large-scale hierarchical image database. In CVPR, 2009.
  • [11] I. Endres and D. Hoiem. Category independent object proposals. In ECCV, 2010.
  • [12] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes (VOC) Challenge. IJCV, 2010.
  • [13] C. Farabet, C. Couprie, L. Najman, and Y. LeCun. Learning hierarchical features for scene labeling. TPAMI, 2013.
  • [14] P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part based models. TPAMI, 2010.
  • [15] S. Fidler, R. Mottaghi, A. Yuille, and R. Urtasun. Bottom-up segmentation for top-down detection. In CVPR, 2013.
  • [16] K. Fukushima. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological cybernetics, 36(4):193–202, 1980.
  • [17] R. Girshick, P. Felzenszwalb, and D. McAllester. Discriminatively trained deformable part models, release 5. http://www.cs. berkeley.edu/ ̃rbg/latent-v5/.
  • [18] C. Gu, J. J. Lim, P. Arbel ́ aez, and J. Malik. Recognition using regions. In CVPR, 2009.
  • [19] B. Hariharan, P. Arbel ́ aez, L. Bourdev, S. Maji, and J. Malik. Semantic contours from inverse detectors. In ICCV, 2011. [20] D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing error in object detectors. In ECCV. 2012.
  • [21] Y. Jia. Caffe: An open source convolutional architecture for fast feature embedding. http://caffe.berkeleyvision.org/, 2013.
  • [22] A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012.
  • [23] Y. LeCun, B. Boser, J. Denker, D. Henderson, R. Howard, W. Hubbard, and L. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Comp., 1989.
  • [24] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proc. of the IEEE, 1998.
  • [25] J. J. Lim, C. L. Zitnick, and P. Doll ́ ar. Sketch tokens: A learned mid-level representation for contour and object detection. In CVPR, 2013.
  • [26] D. Lowe. Distinctive image features from scale-invariant keypoints. IJCV, 2004.
  • [27] X. Ren and D. Ramanan. Histograms of sparse codes for object detection. In CVPR, 2013.
  • [28] H. A. Rowley, S. Baluja, and T. Kanade. Neural network-based face detection. TPAMI, 1998.
  • [29] P. Sermanet, K. Kavukcuoglu, S. Chintala, and Y. LeCun. Pedestrian detection with unsupervised multi-stage feature learning. In CVPR, 2013.
  • [30] K. Sung and T. Poggio. Example-based learning for view-based human face detection. Technical Report A.I. Memo No. 1521, Massachussets Institute of Technology, 1994.
  • [31] C. Szegedy, A. Toshev, and D. Erhan. Deep neural networks for object detection. In NIPS, 2013.
  • [32] J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013.
  • [33] R. Vaillant, C. Monrocq, and Y. LeCun. Original approach for the localisation of objects in images. IEE Proc on Vision, Image, and Signal Processing, 1994.
  • [34] C. Vondrick, A. Khosla, T. Malisiewicz, and A. Torralba. HOGgles: visualizing object detection features. ICCV, 2013.
  • [35] X. Wang, M. Yang, S. Zhu, and Y. Lin. Regionlets for generic object detection. In ICCV, 2013.
  • [36] M. Zeiler, G. Taylor, and R. Fergus. Adaptive deconvolutional networks for mid and high level feature learning. In CVPR, 2011.

全部评论 (0)

还没有任何评论哟~