Advertisement

论文阅读《Object Instance Mining for Weakly Supervised Object Detection》

阅读量:

1****主要思想

弱监督目标检测(WSOD)仅仅使用的是图像级别的标注从而实现解决目标检测问题,在过去几年中得到了一些研究者的关注,而当前存在的一些解决方法都存在自己的局限性,例如使用最广泛的MIL(多实例学习)算法非常容易陷入到局部最优值,因为MIL的学习策略是学习到的每个类别中最具有判别性的目标(使用分类分数最高的目标进行训练),则这些方法会缺少足够多的样本,因此模型的检测性能会大大下降,所以如何获得训练检测器所需要的目标实例样本尤其重要。而该文章也是真对该问题,提出了一种端到端的OIM(目标实例挖掘)算法,其主要是使用空间图和外观图中包含的信息传播来挖掘图片中所有可能存在的目标实例,而不需要额外的一些位置标注信息。其训练过程需要进行多次迭代,将图片中一些判别性没那么高的目标实例能够检测出来并重新用于训练。除此之外,作者也提出了一种和目标实例相关的reweighted loss,而该loss可以学习到每个实例的更大一部分,从而可以进一步提高检测器的性能。作者在本篇文章中的主要贡献可以总结如下:

(1)使用空间图和外观图在仅仅只有图片级别地标注情况下尽可能地挖掘出目标实例,从而在训练时能够得到更多样本,从而可以极大地CNN分类模型地提高检测性能;

(2)提出了一个对对象实例地重加权损失函数,该loss对不同地目标进行了加权,这样可以避免目标地局部信息,从而进一步提高CNN模型地检测准确率。

2****详细方法

2.1****相关工作

全监督目标检测算法已经能够达到较好的检测性能,但是这是建立在大量的人工标注数据上,这需要花费大量的标注时间,这就使得CNN目标检测模型的实际运用得到了限制。而弱监督目标检测技术则是为了解决该问题,即仅仅使用图像级别的标注信息来训练检测器,从而实现目标实例的检测。尽管当前已经存在了许多弱监督目标检测的算法,但是和全监督目标检测相比,仍然存在较大的差距。而在之前的这些工作当中,也主要是将MIL和CNN结合的框架,而这些框架也主要是使用置信度最高的目标区域来寻来你分类模型。但是这样就会使得一些同一类别的分类分数较低的目标实例区域可能则会可能被认为是背景区域,但是在在voc数据集中每张图片中的同一类包含了多个实例。则选择用于训练的目标局限于了单一的尺度和形状中,则这样训练出来的CNN分类器的分类效率则可能较低,此外选择用与训练的样本中可能还存在错误的标签,即将只包含了一部分实例的目标区域当作了背景进行训练,则就会进一步导致CNN分类模型的性能降低。

而在该文中,作者主要是提出了一种多目标实例挖掘的框架OIM,该框架主要是基于两个假设:(1)具有最高置信度的目标区域和其周围高度重合的区域应该具有很大可能属于同一类别(该假设非常复合我们的直观,即该假设可以想成NMS时去掉的检测区域);(2)同一类别的不同目标实例应该具有十分相似的外观。所以,作者就构建了空间图和外观图来挖掘出更多的用于训练的目标实例样本。具体来讲的话,空间图是对最高置信度的目标实例和其周围的检测区域建立对应的空间关系;而外观图则是为了捕获和最高置信度的目标实例具有最高外观相似度的目标实例区域。则通过两个图对更多目标实例样本进行挖掘,得到更多的训练样本,从而可以训练出性能更加的分类器。该框架之所以能够避免局部最优值,主要是由于在训练时,该框架经过多次迭代后获得了每类样本采用了更多的外观相似的目标实例样本,整个迭代结果如下所示。

可以看出,在迭代过程中,具有最高置信度的同类实例被更好的识别出来了,3次迭代后,该检测器已经能检测出大部分的同类目标实例。

另外,作者观察到之前的方法检测到的分数置信度最高的推荐区域更加容易陷入到局部最优解中,这主要是由于置信度最高的一般来说是目标实例的局部部分,特别是对于一些形状不固定的目标实例,如果这样进行训练的话,则会导致在检测时候得到的是目标实例的局部最优解(之前我们准备采用稠密子图的想法就是为了解决该问题目标实例的局部问题)。作者针对检测时的局部问题,提出了一种基于空间图的对象实例重加权损失方法,以帮助网络检测出更准确的bounding box。这个基于空间图的loss则会使得其不会趋向于目标的局部,而可以专注整个目标实例。

2.2****详细实现方法

整个框架地结构如下图所示

总体分为两部分,第一部分是多实例的检测(MID),和之前的WSDNN有着类似的结构,并且使用带权重的MIL pooling;第二部分则是目标实例挖掘和提出重加权损失函数。在训练阶段,首先采用MID将灭个推荐区域进行分类,然后将检测的输出和推荐区域的特征继续宁聚合,使用空间图和外观图来寻找图片中所有可能的目标实例。才外采用实例的重加权来学到目标实例的更大部分。

Object Instance Mining

一般的弱监督检测算法中,选择分类置信度最高的区域作为正样本来改善检测性能。但是这样仅仅使用该区域和其周围的区域进行检测会限制检测器性能的提升。并且作者是观察到在每张图片中,同一类别有多个实例,然而这些目标实例得到了不是最高的置信分数,所以在refine时被忽略掉了,甚至被标记成了负样本。相当于作者采用建立空间图和外观图来挖掘所有的正样本,这里的正样本来自两个方面,一方面的在最高置信度的目标实例区域周围的区域(即同一实例),另一方面是和最高置信度外观相似的的其它位置的区域(即不同的实例)。具体做法是,首先选择检测到置信度最高的目标实例,通过相应的位置关系(即选择与该实例的重叠关系IOU)来建立空间图,则所有与最高置信度进行连接的区域均标记为同一类 。之后基于此实例,通过计算它与其他候选框之间的外观相似度,从而建立外观图。 外观相似度则采用计算不同区域提取到的特征向量的二范数来表示,具体是

然后只有该区域和置信度最高的目标实例无重叠部分才行,其相似度在最高置信度目标实例的和周围同类区域的平均相似度。平均相似度计算如下

则结果如下所示

整个算法流程如下(配合着前面地讲解比较好理解):

Instance Reweighted Loss

设计了一个目标实例的重加权损失函数来学习整个目标实例,从而避免陷入到目标的局部。作者的简单想法就是对不同的区域采用不同的权重值,从而平衡最高置信度区域和其周围的目标实例区域, 从而更大部分的目标容易被检测到。普通的加权loss定义如下:

其中w表示权重值,该loss使得更容易学习到最局部的目标实例。则作者在此基础之上进行该如下:

其中Z是为了平衡不同proposal权重值,定义如下

3****实验结果

作者根据以上算法,构建了相应的模型,其检测结果如下所示

https://cdn.nlark.com/yuque/0/2020/png/618852/1583001176529-6939a987-9eb2-4d9b-ab0a-289e8ee3c038.png并和sota模型做了对比

全部评论 (0)

还没有任何评论哟~