论文笔记:Rich feature hierarchies for accurate object detection and semantic segmentation
详细而复杂的特征层次结构在准确的目标识别与语义分割方面表现出色
概要
该文提出了一种目标检测算法,在与现有最优方法相比平均准确度有所提升的情况下实现了显著的效果。该算法采用卷积神经网络CNN结合区域选择机制来实现对检测目标的定位及分割。当标记的数据量较小时,在辅助数据集上完成有监督预训练后可迁移到目标数据集进一步优化模型性能以取得更好的效果表现。基于上述原理形成的这一算法被命名为R-CNN即基于区域与CNN特征提取的方法名称
R-CNN思想
与图像分类任务相比,在目标检测任务中不仅需要识别物体的类别标签还需要确定目标物体在图像中的具体位置坐标。传统的解决方案主要包含两种:一种是将定位过程归类为回归问题的一种处理方式;另一种则是采用滑动窗口检测器的方法进行定位。然而这两种传统方法的效果均未达到令人满意的程度。
该研究者创新性地提出了一种新型的目标检测策略,并将其核心思路在于通过区域识别技术实现,在目标检测与语义分割相关领域的应用中表现出良好的性能。在处理每一张待测图片时, 系统性地生成约2000个候选区域候选块, 并对每个候选块提取统一长度的特征向量序列; 然后利用支持向量机(SVM)模型对提取到的特征向量序列进行分类学习

R-CNN细节
R-CNN包含三个主要模块:
- 候选区域的提取
- 基于CNN的特征提取网络
- 针对每一种类别的一组SVM分类器
通过多种途径能够生成候选区域。这种方法被R-CNN采用。这一方法源自《Selective search for object recognition》
特征提取则基于2012年提出的Alexnet网络,并源自《ImageNet分类与深度卷积神经网络》一书。该网络采用的是一个输入分辨率均为[公式]、经过均值减除处理后的RGB图像系列。在尺寸变换过程中,则需特别注意对原始图像进行缩放操作以适应模型需求;此外,在缩放处理过程中特意保留了区域边缘外侧额外延伸出的部分(共[数值]个像素)。

Alexnet输出的结果是一个4096维的特征矢量,即作为R-CNN特征提取的结果。
接着特征矢量被传递到分类模块中去,在每个类别上都部署了一个经过相应类别训练好的SVM模型,在评估输入特征向量是否属于该特定类别的过程中发挥重要作用。当所有区域的所有特征向量均完成计算后,在每个类别上执行一次非极大值抑制(NMS)操作以去除与同类目标框重复度较高的候选框并保留较高置信度的目标框;通过上述处理步骤最终可获得待检测物体的位置信息
CNN网络部分对每个类共用参数的时间可以视为平摊至每个类别。仅直接与类数量相关的计算是特征矢量与SVM权值的点积以及非极大值抑制。在实际应用中,所有的点积操作被整合为一个矩阵乘法操作:即特征矩阵2000×4096与SVM权值矩阵4096×N相乘
训练
- 有监督预训练
作者首先对CNN网络进行了预训练,并将其应用于ILSVRC2012这一大数据集上的图像分类任务。由于数据集中缺乏目标位置信息这一限制,在这一过程中仅利用了图像标注数据。采用随机梯度下降算法(SGD)进行优化,并设置了学习率为0.01。
- 目标域调整训练
随后将其应用于目标检测任务中,并对该网络架构进行了相应优化:即把最后一层原本设计用于区分1000种物体的任务层由原来的单分类结构转换为多分类结构(N+1)的形式(其中N代表需要识别的具体物体类别数量),并将第N+1类别设定为背景类别。接着,在新的目标检测数据集上对该改进后的网络模型进行了进一步优化,并采用相同的优化算法——即随机梯度下降算法——来进行参数更新迭代操作;同时将学习率设定为最低设置值为千分之一(lowest setting value of 0.001)。对于每一个随机梯度下降迭代周期,在选取样本时采用了以下策略:每轮选取包含各类别的正样本共32个以及对应96个负样本(negative samples),以此来平衡各类别之间的数量关系
- 目标类分类器
对于只包含部分检测目标的候选区域部分,在进行目标检测时作者采用了Intersection over Union(IoU)重叠度作为判断依据来完成分类任务。其中所设定的具体阈值被确定为0.3这一数值是通过在验证集上使用网格搜索方法确定的最佳参数值。随后在完成分类标签确定以及特征提取工作后接着立即开始使用线性支持向量机模型对各类别进行训练工作。为了进一步缓解计算资源不足的问题还同时采用了hard negative mining方法来进行数据增强以提高模型性能。
结果
在PASCAL VOC 2010和ILSVRC2013两个目标检测数据集上的效果如下:


其中R-CNN BB代表加入了框位置回归(Bounding-box regression)的改进型,在《Object detection with discriminatively trained part-based models》一文中提出了类似的优化方案,并在原有框架的基础上引入了一个线性回归模型以实现更加精准的目标位置校准。
另外一位作者也指出,在特征提取过程中CNN网络的选择会对最终结果产生显著影响。论文中采用的Alexnet并非唯一的选择;在此基础上,作者还尝试了当时刚刚提出的新方法VGG-16网络,并观察到准确度mAP值从58.5%提升至66.0%,显示出该方法的有效性。
