Advertisement

论文阅读理解 - Learning Spatial Regularization for Multi-label Image Classification

阅读量:

该论文提出了一种基于注意力机制的空间正则化网络(SRN)来解决多标签图像分类问题。传统方法难以利用标签间的语义关联性,但该研究通过统一深度网络结构同时挖掘语义和空间关系,并引入可学习卷积增强相关性提取能力。实验表明该方法在多个数据集上显著提升了分类性能(如COCO数据集)。

Developing a Spatial Regularization Mechanism for Image-level Supervision in Multi-label Image Classification

[Caffe-Code]

该论文主要采用注意力机制(Attention Model)学习图像多标签之间的关联,并将其作为多标签图像分类任务的空间正则化手段使用。

1. 摘要

基于多标签图像分类的问题中,通过exploit label间语义关联性,模型性能呈现显著提升.然而,在一般场景下,由于label间缺乏标注的空间信息,难以充分挖掘潜在的空间关联性.该研究提出了一种统一的深度学习架构,系统性地挖掘了label间的语义和空间关联性.针对包含多个标签的图像数据集,该方法能够有效结合内外部特征信息,从而实现了对目标物体关键部位的精确识别.

开发一种名为空间正则化网络(Spatial Regularization Network, SRN)的技术,在深度学习框架中提取所有标签间的注意力图(attention maps),并利用可学习的卷积模块深入挖掘标签之间的潜在关联性。通过融合该网络的正则化分类结果与基于ResNet-101架构的端到端分类结果,在图像分类任务中能够持续提升模型性能。
通过图像级标注数据进行端到端优化训练过程。
当该网络模型接受具有空间相关性的标签图像进行训练后,在识别相关图像区域时表现出响应性地聚焦能力。

2. 方法

这里写图片描述

该研究展示了SRN的结构示意图. 该模型主要依赖于图像级别的监督信号,在分析标签注意力图时能够有效提取标签间的语义关联与空间分布特征.

这里写图片描述

如图2所示,在该模型中使用了基于ResNet-101架构的设计方案。具体而言, 通过分别针对各个标签进行学习训练, 获得独立于彼此而又能较好区分各类别的分类器。其中,'Res-2048'模块指代使用具有2048输出通道的ResNet结构。其中, SRN模块采用主网络提取出的基于ResNet-101编码后的视觉特征作为输入信号, 并通过引入注意力机制来建模标签之间的正则化空间关系。将主网络与SRN模块的结果融合汇总后计算出每个样本对应的分类置信度值

当图像存在某个标签时,更多的注意力应该放在相关的区域.

该模型通过堆叠卷积操作能够有效地捕捉到各标签之间的相对关联性。具体而言,在编码过程中,标签注意力图不仅表示了每个标签所对应的丰富空间信息,并且所有标签的加权注意力图均实现了空间上的对齐配置。这使得在后续特征提取阶段得以实现各标签间关系的有效建模。

为了能够捕捉标签间复杂空间关系,卷积应该具有足够大的接受野.

这里在不同卷积层分离了标签语义关联性和空间关联性学习. 直观上来说,在这种情况下一个标签通常仅与其少数几个具有语义关联的标签相关联;而对于那些与之没有语义联系的其他标签而言,在估计其注意力机制时没有必要进行空间关联性计算.

这里写图片描述

Figure 4展示了从加权注意力图中学习空间正则因子的详细网络架构。前两个卷积层采用1×1尺寸的卷积核以捕获标签间的语义关联性;第三个卷积层采用了14×14大小的滤波器并输出了2048个特征图。将第三个卷积层的滤波器进行分类分组,在同一大类中每个滤波器与同一个输入特征通道进行卷积操作;不同类别中的滤波器则分别捕获不同语义相关标签的空间关联性。

2.1 概述

  • fcnn - ResNet

    • 输入: image, 224x224x3
    • 输出: feature map X, 14x14x1024
  • fcls - 多标签分类,

ResNet-2048模块(stride=2) - ResNet-2048模块 - ResNet-2048模块

经特征图X为14×14×1024维度

输出:预测类别的置信得分 \hat{y}_{cls}

注意力掩码

该网络架构由多个卷积层组成:首先应用512通道的可学习核大小为[1×1]的卷积操作;随后采用512通道可学习核大小为[3×3]的空间特征提取;接着引入ReLU激活函数以促进非线性信号传递;之后再执行一次可学习核大小为[1×1]并具有C通道数的卷积操作以实现特征维度压缩;最后通过Softmax函数完成分类预测任务。
此网络生成给定输入图像X(尺寸为[batch_size×height×width×channels])的空间特征表示Z(尺寸为[batch_size×height×width×C]),并进一步得到空间 aware 软注意力掩码A(尺寸同样为[batch_size×height×width×C])。其中 FSR 表示空间正则化项。

复制代码
* 输入: 

label attention maps A, 14x14xC

confidence map S, 14x14xC (由 feature map X 经 Conv(C, kernel1x1) 得到.)

复制代码
* 输出: weighted attention maps U, 14x14xC

U = \sigma(S) \circ A

2.2 训练

采用交叉熵cross-entropy loss.

分四个阶段:

仅采用主网络架构,并基于ResNet进行训练,其中主网络参数在ImageNet上进行了预训练。同时,在模型微调过程中,我们采用了以下策略:首先,固定参数梯度更新,并对余下部分进行微调学习;其次,在模型优化过程中采取分步策略:固定部分模型参数,并对余下部分进行微调学习;最后,在整体优化框架中实现了对整个网络结构的动态调整与优化。

4 NVIDIA Titan X GPUs.

MS-COCO, 16 hours.

3. Results

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

全部评论 (0)

还没有任何评论哟~