Weakly Supervised Deep Detection Networks 学习笔记
Weakly Supervised Deep Detection Networks 详细解读
该研究的核心目标是基于图像级别的标注数据对网络进行训练以实现目标检测的任务。本文所采用的方法如上图所示。

该研究旨在设计一种弱监督的深度检测架构,在优化网络结构的基础上,仅基于图像级别的标注信息实现区域选择与分类功能。
Introduction: A study demonstrates that convolutional neural networks (CNNs) trained for classification may implicitly contain a significant amount of information related to detection tasks.
2.方法概述:a.给定输入图像x,在传统的CNN卷积层基础上添加空间金字塔特征(SPP)模块能够有效提取区域级描述符(x;R)。
b. Next, the network divides the pooled region-level features into two distinct data streams, with one stream dedicated to classification tasks and another specifically designed for object recognition tasks.
-
MIL采用了Aimed at选择候选区域的方法(appearance model),而本文则采用了与识别分支无关的独特并行检测分支来实现候选区域的选择。因此,在一定程度上克服了基于弱监督学习的传统方法MIL存在的局限性即局部最优的问题。
-
我们的双流CNN在结构上与林等人提出的双线性架构存在一定关联。林等人提出了一种被称为"双线性"的结构设计,在该架构中包含两个并行网络流单元(即通道),其输出特征向量在对应空间位置上进行外积运算以生成组合特征。
作者指出这种设计灵感来源于人眼视觉系统中腹侧流与背侧流的区别:前者侧重于识别功能而后者则专注于定位能力。
相比之下,在我们提出的架构中存在两个这样的特征流。
值得注意的是,
尽管两者具有相似之处,
但这种相似性仅停留在表面层次。
关键区别在于:
在林等人所提出的方案中,
这两个流向是完全对称的,
因此没有理由认为其中一个流向应专门负责分类任务,
而另一个专门负责目标检测;
相反,在我们的方案中,
检测分支模块被明确设计用于区域比较任务,
从而打破了这种对称性。
此外需要注意的是,
林等人并未实施基于单词级别的语义分类(WSD)方法,
也没有针对对象检测性能进行评估。
5.本文仅仅使用了image-level labels,region proposals 和 BP
Weak supervision learning primarily falls into two categories: one focused on improving initialization and regularization strategies for MIL-based non-convex optimization problems, and the other exploring ideas centered around analyzing similarities between image components. Recent research has introduced new principles for weakly supervised localization to enhance the classification performance of CNNs (without providing any annotations regarding object positions in the images).
Method
1.预训练网络(采用只有图像级标注的数据集训练一个CNN)
WSDDN采用的是将最后一个卷积块中的池化层替换成SPP结构。关于[SPP简述]、SPP内部的[SS详细介绍]以及候选区域R等技术细节均可参考相关资源进行了解。我们基于快速_rcnn模型对SPP结构进行了改进,在这一改进过程中改变了其输入数据的形式:不再接受单一区域作为输入,而是支持多个区域集合作为输入
【note】在接下来的分流开始之前先介绍softmax函数和交叉熵损失函数
softmax函数如下:

常用情况下,在采用了softmax层的多分类神经网络模型中,在该模型的最终输出层上所采用的损失函数是交叉熵 ,其形式如上所述。

3.分类数据流:该分类数据流采用了softmax分类器进行处理,在各个区域内推算了各类别的概率分布

- 数据流检测:采用softmax分类器进行处理,请问您想要的是计算每个类别中各区域的概率分布吗?

5.两个数据流的合并:通过采用内积的方式实现两者的结合,并应用标准非极大值抑制的方法(去除IOU大于40%的区域),从而生成类特定检测结果列表。在双线性结构中存在三个不同之处:第一点是使用不同的softmax分类器以打破两者的对称性;第二点是本文采用了内积运算而非外积;第三点在于分数class(xcr)det(xdr)仅针对特定图像区域r计算而非全局网格位置计算。
6.图像水平分类得分。 到目前为止,WSDDN已经计算了区域级分数x r

7.有关损失函数:

仔细观察发现这个函数是上面【note】部分的交叉熵损失函数的变体。
8.空间惩罚项:因为我们在缺乏 ground truth 的情况下无法像 Fast R-CNN 那样根据 50% 的 IOU 值筛选出不合适的候选框。因此我们采用软正则化策略,在训练过程中对最高得分为其特征图进行较大幅度的衰减,并对那些与至少 60%IOU 重叠区域进行较小幅度的衰减。

实验部分(略)
