Weakly Supervised Object Recognition with Convolutional Neural Networks
第二届神经信息处理系统研讨会--弱监督物体识别与卷积神经网络](https://hal.inria.fr/file/index/docid/1015140/filename/nips2014.pdf)
Authors:Maxime Oquab,Ivan Laptev,Leon Bottou, Josef Sivic.
论文阅读 ,包含在他们之前工作的cvpr2014工作中 ,是弱监督学习的一个拓展!
=====================================================================================
1.背景与贡献
1.1背景吹水
weakly supervised learning 最近在CV领域越来越受欢迎,在object detection问题中也得到了广泛应用。过去传统的方法是fully supervised learning,在每张图片中为每个物体提供详细的label信息以及对应的bounding boxes(如SIFT、BoW、HOG+SVM或DPM),这种方法虽然有效但耗时费力且数据处理压力大。然而由于人工标注bounding boxes容易引入主观因素和偏差,在算法设计上也存在局限性。因此研究者们逐渐转向weakly supervised learning方法,在这种框架下仅需提供少量信息即可解决问题:例如在object detection任务中仅需告知训练集中包含哪些类别标签而不必关心每个类别有多少个实例及其具体的位置和尺寸信息。相较于传统方法而言这是一个相对宽松的要求条件
1.2贡献
文章整合弱监督学习(仅采用图像级别的标注)与CNN架构来处理object识别任务。该网络生成映射能够有效从复杂背景中定位物体。实验结果表明,在Pascal VOC 2012数据集上取得的进步甚至超过了使用每张图片标注了物体标签及其对应边界框的传统强监督学习方法。
2.网络架构
用的还是作者上一篇cvpr2014的模型,

、
具体参考上一篇blog的解释,有点新奇的一个东西来了,convolutional adaptation layer(也就是今年cvpr15很火的一个概念fully convolution),从Rob Fergus和Yann lecun带领的NYU参加imagenet2013的比赛发出的那篇Overfeat引出,意思就是把fully connected layer换成了卷积,全连接其实就是一个卷积,只是它的kernel的大小是输入的大小而已,假如把kernel变小点就是卷积了,同时用这样的方式可以起到在原图上做sliding window的效果,从而在中间层共享了,避免了很多的卷积运算。通过这样的方式,最后一层softmax的输出从之前的1*1*N变成了一个n*m*N的长方体了,其中N表示class的数量,n表示在x轴上的sliding window的个数,m表示在y轴上sliding window的个数(这里的sliding window的step-size可能就比较大了,具体跟网络有关),现在对这张图片产生出了n*m*N的长方体,接下来就是一个max-pooling的操作,对每个n*m的矩阵做个max,得到1*1*N的数组了。
3.训练与Inference
用multi-label的目标函数去优化训练,在这里用到多label的目标函数:

在某个尺度下的训练方法其实是一种基于特定尺寸范围的技术。我们知道物体在图像中可以呈现不同尺寸的变化,在这种情况下仅能处理固定尺寸的对象。为了克服这一限制并实现更好的适应性,文章采用了多尺度处理策略:首先将图像缩放至500×500像素,并随机抽取一个参数s(其范围为[0.7, 1.4]),随后将整个图像按比例缩放s倍后再进行上述基于特定尺寸范围的方法训练
在Inference阶段中,在经过统一归一化处理后(达到512×512),作者会对图像分别进行缩放和调整尺寸(从s=0.5扩展至3.7步长为0.05),从而生成66种不同的尺度版本,并对每个版本执行推理。
