【论文笔记】Scalable Object Detection using Deep Neural Networks
Paper: Erhan, D., Szegedy, C., Toshev, A., & Anguelov, D. (2014). Scalable Object Detection using Deep Neural Networks . CVPR.
Goal
将基于DNN 的物体检测方法扩展到大规模数据集上。
Contribution
- 将物体检测问题定义为输出为多个bounding box 的回归问题。每个bounding box 同时输出坐标和置信度,使得模型更加紧凑和高效。
- 利用DNN 同时学习数据的表示和bounding box 检测器。
- 在无类别监督的条件下训练box 检测器,使得该方法的计算复杂度几乎不受物体类别的影响,因此适合于大规模物体检测问题。该方法还可以推广到未知的类别。
DPM 的问题 :
- Sliding windows 需要在多个尺度上进行穷尽搜索,时间代价高。Branch-and-bound
[1]策略避免了这个问题。 - 检测时间和类别数目成线性关系,不利于大规模检测问题。使用低维共享的基
[2]和哈希方法[3]可以解决这个问题。 - 另一个解决将检测扩展到大规模类别的思路是借助分割来解决。首先进行自下而上的类别无关的分割
[4],然后利用由上至下的推理来对分割得到的区域进行打分[5,6,7]。在对分割块进行判断之前,还可以先判断每个区块是否包含一个物体,然后再判断类别[8]。
Method
作者采用“定位+识别 ”两步的方法。即先用DNN 回归模型定位出若干可能的bounding box(此时并不知道每个box 的label,置信度只表明该box 包含物体的可能性大小),然后利用DNN 分类器对每个box 进行识别。
DNN 回归模型:
* **Model** :将DNN 输出层改为回归。输出为包含`K`个bounding box 的坐标 _l_ _k_ ∈R4(左上和右下坐标)和这`K`个box 对应的置信度 _c_ _k_ ∈R(表明该box 包含物体的可能性大小)。
* **Loss** : min{预bbox和真实bbox的匹配误差(平方误差) - 预测bbox 的置信度(条件熵)} ,
其中

* **Optimization** :BP
* **训练细节** :提出Prior Matching 的概念,即将先验知识整合到匹配过程中。具体来说,就是对训练样本的真实bbox 进行聚类,得到物体的几个典型位置,利用他们来辅助匹配。
优点:如果要DNN 回归模型对每个类别输出K个bounding box,这会导致输出节点数随类别数线性增加,因此scalability很差。而且由于有的类别可用于训练的样本数很少,因此很可能导致对模型的训练不充分。使用“定位+识别”的方式可以很好的避免了这个问题。
Experiment
作者将方法命名为DeepMultiBox。
VOC 2007
使用VOC 2012 进行训练,在VOC 2007 上测试,mAP=0.29.

ILSVRC 2012
测试ILSVRC 2012 的“Classification with localization" 任务。结果如下:

就检测率而言,DeepMultiBox 要略微差于ILSVRC 2012 上的Localization 任务的冠军One-box-per-class。但和One-box-per-class 比较,DeepMultiBox 有几点优势:
* `One-box-per-class` 的检测时间随类别数目线性增加,而`DeepMultiBox` 没有这个问题。
* `DeepMultiBox` 的迁移能力更好:在Imagenet 训练的模型可以在VOC 上取得很好的检测性能,如下面右图所示。
One-box-per-class 无法推广到多物体的检测问题中(i.e. detection 任务),而DeepMultiBox 可以很自然的推广到多物体检测任务。下面左图反映了这个问题。

Comment
- 作者采用“定位+识别”的方法实现了检测时间与类别无关的算法(~1 sec. per image)。进一步提升可以研究如何将定位和识别整合到统一的模型框架中。
- 从ILSVRC 2012 上的检测性能来看,
DeepMultiBox应该没有OverFeat[9]好。
Reference
[1] C. H. Lampert, M. B. Blaschko, and T. Hofmann. Beyond sliding windows: Object localization by efficient subwindow search. In CVPR, 2008.
[2] H. O. Song, S. Zickler, T. Althoff, R. Girshick, M. Fritz, C. Geyer, P. Felzenszwalb, and T. Darrell. Sparselet models for efficient multiclass object detection. In ECCV. 2012. 2
[3] T. Dean, M. A. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, and J. Yagnik. Fast, accurate detection of 100,000 object classes on a single machine. In CVPR, 2013.
[4] C. Gu, J. J. Lim, P. Arbel´aez, and J. Malik. Recognition using regions. In CVPR, 2009.
[5] K. E. van de Sande, J. R. Uijlings, T. Gevers, and A. W. Smeulders. Segmentation as selective search for object recognition. In ICCV, 2011.
[6] I. Endres and D. Hoiem. Category independent object proposals. In ECCV. 2010.
[7] J. Carreira and C. Sminchisescu. Constrained parametric min-cuts for automatic object segmentation. In CVPR, 2010.
[8] B. Alexe, T. Deselaers, and V. Ferrari. What is an object? In CVPR. IEEE, 2010. [9] Sermanet, P., & Eigen, D. OverFeat : Integrated Recognition , Localization and Detection using Convolutional Networks. arXiv, 2013.
