Advertisement

【论文阅读笔记】SSD(Single Shot MultiBox Detector)

阅读量:

SSD(Single Shot MultiBox Detector)

Liu W , Anguelov D , Erhan D , et al. SSD: Single Shot MultiBox Detector[J]. 2015.

该网络架构在许多方面与Faster R-CNN具有相似性:在提取特征阶段(即卷积操作中),该网络采用了更密集的空间采样策略;通过直接使用Convolutional Filter(CF)的结果作为offset预测和平行类别识别(共有K个类别),从而实现了对目标定位和分类信息的一体化处理;区别在于将区域建议和目标检测合并为一个阶段:具体而言,在提取特征阶段后立即进行目标定位预测,并基于此信息并行地完成类别识别任务。

网络的预测流程如下:首先筛选出置信度(confidence)高于0.01的default box;然后对各类别进行分析,在每类中基于default box 的得分执行NMS处理;最终选取每类前N个结果。

Net architecture:

以VGGnet为基础网络,在基础网络之后增加了若干卷积层用于从多尺度特征图中回归bounding box的位置和类别置信度。网络结果如图2所示。

在传输过程中, 金标准 bounding box 的边长逐渐减小。各层级 feature map 对应的金标准尺寸存在差异, 其中一些较大的 feature maps 经过缩放后其尺寸将限定在几像素范围内。某个物体在特定层级 feature map 中的表现将缩减至少数像素区域, 这些具有微米级尺度的关键特征点不仅可参与分类任务, 同时也能用于边界框回归。

该网络的default bounding box 被确定为位于不同层次的 feature map 上,并且每个 bounding box 的尺寸仅为少量像素大小。见图 1。

(最初误以为不同层级 feature map 对应的标准金标注度需按一定程度缩放,其实另一种方式即依据卷积后图像缩小的比例来设定 scale 设置方式,只是采用了不同的 scale 调整策略,但与原文相比其差异并不大,只要 scale 值能够逐步增大即可)。

在每个层次feature map 中的 default bounding box 的中心坐标为,

其中,|fk|为此feature map 的边长, i,j为对应位置的索引坐标。

每一个边长为|𝑓𝑘|的feature map 中存在|𝑓𝑘|2个default bounding box。

每个Default bounding box的边长定义方法如前所述,则w和h可被理解为相对于输入图像的相对宽度与高度

但是大多数情况下,默认边界框与金标准边界框之间的重叠率较低。即使直接将默认边界框作为最终预测结果的基础边界框,在这种情况下得到的overlap率通常不会很高。为了提高预测精度,必须通过回归方法对proposed bounding box相对于金标准bounding box的四个offset参数进行拟合。将default bounding box的位置坐标(i,j)加上四个offset值后得到最终预测结果中心坐标的计算公式。经过与default bounding box结合后得到的结果边长参数(w,h)则用于确定最终预测边界框的尺寸。一共有k种default boundingbox 每种 default boundary boxes具有不同的宽高比 如图1所示 这使得不同类别物体所对应的 boundary boxes在形状上具有显著差异性 以适应不同形状的对象

在数量级上,默认框的数量相当于 faster_Rcnn 中锚框的数量。

其中绿色方框标记3×3像素特征块对应的边界框, 黑色虚线方框表示预测出来的边界框, 基于默认边界框的中心坐标计算缩放因子和偏移量

假设有k个default bounding boxes,在每一层特征图中被采用k*(classes+4)个3×3的卷积核用于对bounding box center, edge width, 和edge height offsets, 以及class scores进行同时预测。

Loss函数:在loss函数中使用l作为长宽参数(w,h),其中输出结果应与输入图像的比例相关联后才能代入到loss函数中进行计算

其中c0对应的类别为背景。

训练细节:

定义为符合与金标准grounding truth 的Jaccard overlap系数高于0.5的default bounding boxes

全部评论 (0)

还没有任何评论哟~