论文笔记:Weakly Supervised Deep Detection Networks
Weakly Supervised Deep Detection Networks
摘要
-
引言
弱监督学习非常重要主要是由于以下两个原因,其一,图片理解的主要目的在于学习整体的复杂视觉环境(ImageNet比赛);其二,CNN训练数据缺乏。因此,如果能够用上层信息来学习复杂的内容能够极大地减小数据标注花费的时间和精力。用于图像分类的CNN可能已经包含有关物体检测的很多含蓄的不易被发现的信息。本文主要提出了一个新型的end-to-end方法使用预训练的CNN进行弱监督物体检测。(WSDDN)
主要方法:第一步提取region-level特征,通过在卷积层最顶端插入spatial pyramid pooling layer;然后网络被分成两个数据流从region-level特征后面开始。 第一个数据流跟每个独立区域的类别得分有关 ,进行识别的任务,,第二个数据流,通过计算各个区域概率贡献来进行对比,从而确定出包含有图片中最显著信息的region,这个叫做检测。
然后把这两个数据流结合起来预测image的类别。我们仅仅使用image-level labels,region proposals还有back propagation在现有模型构架上进行fine-tuning。在数据集PASCAL VOC training set上面的训练结果最好。 -
方法

基于 ImageNet ILSVRC 2012 数据集对网络进行预训练,在此基础上优化设计。该网络架构在原有基础上进行了改进,在最后一层CNN之后新增了一层SSP(spatial pyramid pooling)层。该SSP层接受输入图像x以及一系列区域R(不仅仅是一个单一区域),这些区域通过SelectiveSearchWindows(SSW)或EdgeBoxes(EB)方法提取得到。随后由SSP层生成特征向量用于后续计算。在SSP层之后依次接入两个全连接层,并分别应用ReLU激活函数处理。其中,在全连接层中分为两类功能:分类任务流和检测任务流
引入了一个具有C类别的特征图(fc),随后将其与softmax分类器相结合以实现图像分类任务。该系统能够识别并分类输入图像中各个区域所属的具体类别(共R类)。

- 数据流检测
与分类数据流具有相同的结构(尽管名称可能存在差异),为何两个名称无法互换?实际上,在softmax函数中(求和范围存在差异),因此它们的功能特性有所不同。查看公式推导过程:

看完之后还是没能完全弄明白为什么上面的部分代表分类任务而下面的部分则用于检测任务呢?按照论文中的描述,在第一条分支中能够预测哪些类别与该区域相关联而在第二条分支中则会选择包含信息最多的关键区域
-
组合区域得分和检测区域 这种组合方式具有良好的效果。这是因为,在数据流中获取数据特征时所遵循的维度结构是相同的。
-
分类得分
-
实验
n找那个图片,分为2类(+1/-1),VGG 模型训练。 -
实验结果显示该方法远远超越现有的技术标准。
搞不懂的是为何每个研究论文都能轻易突破state-of-the-art的水平,
这种现象令人感到困惑的原因在于现有研究方法存在局限性
Reference
Weakly Supervised Deep Detection Networks
Emma
SIAT
2017.02.28
