多标签分类(十):Multi-label Image Classification with Regional Latent Semantic Dependencies
具有区域潜在语义相关性的多标签图像分类
来自2018年的CVPR
摘要
基于深度卷积神经网络的方法在单标签图像分类任务中展现了卓越的性能,在多标签场景下也取得了显著的进步
1.介绍
由于网络访问的便利和数字设备的广泛使用,大尺度图像已变得广泛可用,这为研究人员了解这些图像提供了各种机会,图像分类作为一项传统的任务,已经进行了几十年的全面研究,特别是对于单标签分类问题,已经取得了各种进展,而在现实世界中,图像通常包含着丰富的语义信息,如物体、属性、动作、场景等.通过给图像分配多个标签,可以将视觉信息转化为语言,便于理解,并可用于图像检索和语义分割等其他可视化应用.
此任务背后的关键问题是弥合图像可视内容和多个标签之间存在的语义差距.图1给出了多标签图像的示例.随着大规模数据集的可用和数据标注的丰富,多标签图像分类引起了人们的广泛关注,受到深度神经网络,特别是卷积神经网络先进性能的启发,人们在将神经网络应用于多标签分类问题上做出了各种努力。

图1:一种典型的多标签图像示例。通过红色箭头标识了图像内容与标签之间的视觉关联;同时利用蓝色连线展示了不同标签间的语义依存关系。
最直接的方法是将多标签图像分类问题视为几个单独的单标签分类问题,并使用交叉熵或排名损失来训练每个标签的独立分类器。weet 提供了一个区域解决方案,允许在区域级别上独立地预测标签,但是,他们很难建立不同标签之间的标签依赖的模型,直观上看,多标签的图像中标签之间的相关性很强,例如ocean和ship通常出现在同一幅图像中,而ocean和cat通常不会同时出现,为了方便地探索标签依赖关系,在以往的工作中通常采用概率图形模型(PGM)
最近,Wang等证明了递归神经网络(RNN)可以有效地捕获高阶标签依赖关系,他们将CNN和RNN统一为一个框架,在全局层面上挖掘标签依赖,极大地提高了标签的能力,然而,由于对全局视觉特征的识别有限,预测小物体和属性对于这些工作来说仍然是一个挑战。
在本文中,我们的主要贡献是提出了一个用于多标签图像分类的区域潜在语义依赖(RLSD)模型,该模型有效地捕获了区域层面上的潜在语义依赖。该模型结合了区域特征的优点和基于RNN的标签共现模型的优点,与目前最先进的多标签分类模型相比,在多个基准数据集上取得了最好的性能,特别是在预测小目标和视觉概念方面。图2显示了我们提出的RLSD模型与基线模型的示例输出。我们可以看到,在Multi-CNN和CNN+LSTM中,由于图片中的“瓶子”、“花瓶”和“酒杯”体积较小,所以没能预测出它们,而我们的模型有效地预测了它们和其他大型物体。

图2展示了不同模型在多标签预测任务中的实例结果。左侧为真实标签,在右侧分别展示了基于基线的方法、Multi-CNN以及结合了CNN与LSTM的混合网络所获得的结果。右侧则展示了我们提出的方法(简称RLSD)的具体输出情况。与现有方法相比,在预测细致且多样的目标时(如瓶子、酒杯和花瓶等小型物体),我们的方法表现更为突出。
如图3所示的是所提模型的框架结构图。首先利用卷积神经网络对输入图像进行处理,并提取其卷积特征信息;随后经由类似RPN的定位层对该特征数据进行处理,在此过程中与传统目标检测框架中的RPN(如faster R-CNN)存在显著差异:传统RPN以单一目标为导向来预测候选框;而我们的定位层设计目标更为广泛:它旨在识别图像中可能包含多个语义相关联区域的区域候选框;为此我们采用了全连接神经网络来对该类区域进行编码;随后将编码结果传递至循环神经网络(RNN)层;在此过程中RNN单元能够在区域层面捕捉潜在的语义关联关系:其中每个RNN单元依次根据定位层输出及前一层递归单元输出的状态信息生成多类预测结果;最后执行全局最大池化操作以整合所有区域级输出信息作为最终预测依据
我们在此基础上提出了一个上界基准模型(RLSD+ft-RPN),该模型基于目标框坐标来进行训练;通过实验验证表明:与现有方法相比该模型能够达到更好的性能表现:其优势主要体现在无需额外引入目标框注释这一限制条件;这在实际应用中具有更高的实用价值
2.相关工作
在过去的几年中,人们对多标签图像分类进行了大量的研究。基于强大的深度卷积神经网络,在图像分类方面取得了最新进展,该网络尝试通过使用由多个非线性变换组成的架构来对视觉数据的高级抽象进行建模。已有几种方法将单标签分类网络扩展到多标签问题。Gong等人结合top-k排名目标与CNN架构来解决这个问题。通过为成对排序标签定义权重函数,使损失函数最小化,使正标签的排序高于负标签。weet al.提供了一个区域解决方案,允许在区域级别上独立地预测标签。他们使用BING生成对象建议,并进一步将其发送到CNN来计算多类得分。应用最大池化操作将区域得分融合在一起作为最终分类结果。我们还使用了区域特征和最大池融合。然而,我们考虑区域潜在语义依赖,这允许我们联合预测多个标签。
还有一些研究通过设计多模态表示方法来解决多标签分类问题,通过学习图像视觉内容和标签的表示方法来弥合图像和标签之间的语义鸿沟。通常采用典型相关分析(CCA)和核典型相关分析(KCCA)构建潜在语义空间来解决多标签图像标注和检索问题。这些方法侧重于挖掘标签丰富的语义信息,而忽视了标签之间的依赖关系。
为了建立标签依赖的模型,提出了几种方法。在之前的工作中,对图像特征标签联合分布进行建模.有几种不同的图结构可以实现这一目的.基于图的方法的一个局限性是,标签语义信息越丰富,图就越复杂,计算复杂度高,效率低.此外,上述所有方法都只在全局层次上对标签依赖进行建模
递归神经网络(RNN)已被证明能够有效地建立一个序列的时间依赖性模型,并已成功地应用于多个序列对序列的问题.Wang等表明,RNN可以有效地捕获高阶标签依赖关系,他们将CNN和RNN统一为一个框架,在全局层面上利用标签依赖性,极大地提高了标签的能力,我们也应用RNN来捕获标签的依赖关系,但与上述不同的是,我们的区域潜在语义依赖模型考虑了区域层面上的标签依赖,使我们能够预测小尺寸物体和视觉概念
我们提出利用区域建议网络、全连接识别网络和RNN共同提取具有丰富语义信息的图像区域,同时探索潜在的语义依赖关系
3. RLSD模型
a)框架概述 :该模型的关键特征是能够捕获区域语义标签的依赖关系。其新颖之处在于,这是由一个本地化体系结构实现的,然后是一些LSTMs(长-短期内存)。定位层的目的是定位包含多个高度依赖标签的区域,而LSTMs被用来按顺序描述潜在语义标签依赖关系。执行一个max-pooling操作以最终融合所有区域输出。图3显示了我们提出的模型的整个网络:

如图3所示,本研究提出了一种基于区域潜在语义依赖的模型。该模型首先利用CNN对输入图像进行特征提取,并将提取的CNN特征发送至类似于RPN的全卷积定位层。该定位层通过检测图像中可能包含多个高度依赖标签的区域来识别目标候选框。对于每个候选框内的区域特征,则采用全连接神经网络将其进行编码处理,并将这些编码结果输入到区域级长短期记忆单元(LSTM)中进行进一步处理。最后,在整个区域内执行最大池化操作以融合各子区域输出信息作为最终预测结果。具体而言,在第III.A节中我们介绍了定位层的工作原理及其功能;第III.B节则详细阐述了基于LSTM的标签序列预测模型的设计与实现过程;最大池化操作和损失函数的相关内容在第III.C节进行阐述;而模型初始化及训练细节则在第III.D节详细说明。
A.本地化多标签区域
为了在图像层次上深入分析问题并探索其内在联系

我们的模型估计了标量tx,t_y,t_w,t_h. 选择光滑L1范数作为损失函数以定位目标框的位置. 给定真实坐标g=(g_x,g_y,g_w,g_h), 损失函数定义为:

其中:

b)盒采样和双线性插值 :这里采用了一种采样机制对生成的候选区域进行子采样,因为将所有候选区域发送到进一步的基于LSTM的标签生成步骤是非常昂贵的,采样一个M=256M = 256大小的小批量,M/2置信度最高的区域为正样本,M/2最低的区域为负样本,我们还限制了在一个小批中大部分盒子(框)是正样本,另一半是负样本,在测试阶段,采用非最大抑制来选择最优的M个方案
为了保证候选区域特征能被全连通层接受,梯度能被反向传播到输入特征和盒坐标,使用双线性插值代替ROI池化层,我们参考双线性采样操作,对于顶部的M区域候选,得到M×C×X×YM×C×X×Y特征图,其中C=512C = 512为VGGNet卷积特征图大小,X,YX, Y为双线性采样网格大小。在我们的例子中,我们设X=Y=7X = Y = 7.
3)全连接网络编码 :得到区域特征M×C×X×YM×C×X×Y后,将其发送到由两个4096-d全连接层组成的基于dropout正则化的全连接网络中,每个区域的特征被扁平化成一个向量,并通过这个全连接网络。因此,每个候选区域被编码为4096维的特征向量vv.所有区域全连接特征形成一个小批量V=[v1,v2,…vi,……vM]V = [v_1,v_2,…v_i,……v_M],大小为M×4096M×4096,其中ii表示第ii个候选区域.
图4显示了我们的定位层提出的区域和MCG产生的候选区域之间比较结果的一些例子。由我们的模型生成的边界盒通常更大,其中一些包含多个对象。因此,我们的模型不仅可以探索足够的标签依赖,而且在预测小物体和视觉概念方面优于现有的方法。为了显示定位层的有效性,我们设置了一个基线模型,使用MCG[45]来代替我们的多标签区域定位层,用于进一步的多标签分类。

图4展示了MCG模型生成的前15个区域(左侧)与其对应的本定位层(右侧)的对比结果。通过分析这些生成结果可以看出:某些区域包含了多类物体;例如说,在这些区域内不仅包含了烤箱、微波炉以及厨具类物体;同时还有含有人员与网球拍组合;以及人员与风筝和车辆组合的情况
B.一个基于LSTM的多标签生成器
为了捕捉这些区域中的潜在语义依存关系,在每个区域上我们生成标签的概率分布序列;这是一个基于记忆体单元的模型架构设计;图5展示了该模型的基本组成架构;其中σ代表sigmoid非线性函数;在每个时间点t上,LSTM通过状态转移机制完成信息编码;给定输入序列{x_t,h_{t-1},c_{t-1}}(其中x_t表示当前时刻的输入特征,h_{t-1}为前一时刻的状态,c_{t-1}为细胞门控状态)

具体来说,it,f t,c t,o t it ot ft ft ot ct ot it ot ct ot it ot ct ot它对应于LSTM模型中的输入;而遗忘门用于控制信息的遗忘,
记忆门用于维护长期信息,
输出门用于决定当前输出的信息来源;这些相关的权重矩阵已经被训练完成;在时间步长t处的状态经过计算后会被传递给Softmax层;
该状态会生成一个概率分布p t p t

图5表示LSTM的结构
给定一个区域特征向量vv,设x0=Wevvx_0 = W_{ev}v,其中WevW_{ev}为可学习的区域特征嵌入权值,由式(5)到式(11),得到一个初始隐藏状态h0h_0,可用于下一个时间步.从t=1t = 1到t=Tt = T,设xt=WesStx_t = W_{es}S_t,隐藏状态ht−1h_{t-1}由上一步给出,其中WesW_{es}为可学习标签嵌入权值,T是区域内的标签数,StS_t是时间步长tt处的输入标签.实际上,在我们的RLSD模型中,由于在训练阶段(和测试阶段)只提供了全局多标签的地面真值,不能使用区域的地面真值,我们将StS_t称为潜在标签,可由下式得到:

其中1是一个指标函数,StS_t是索引i=1i = 1的独热向量,其他情况则为0.ii是所有标签上的概率分布pt−1p_{t-1}的最大值的索引,它是通过LSTM前馈过程在前t−1t-1时间步计算得到的,在预测一个区域的所有标签之后,添加一个“END”标签来完成预测
将一个小批量中的所有M区域特征(一个小批量中的所有区域都来自同一幅图像)放入到LSTM模型中,我们在每个时间步长t上收集每个区域mm上的预测ptmp_{tm},形成一个形状为M×T×LM×T×L的矩阵,其中LL为数据集的标签大小。如果一个区域标签的长度小于T,我们将填充0.
C.最大池化和损失函数
为了减少候选区域或特定时间步长噪声预测的影响,在候选区域和时间步长上采用跨区域与时间最大池化的策略将各区域的输出结果进行整合性预测。令ptmp_{tm}表示在第mm个区域和第tt个时间步长上的输出预测值,则ptm(j)((j=1,…,L)p^{(j)} {tm}((j = 1,…, L)为ptmp{tm}的第jj个分量,其最大池运算可表示为:

其中p(j)p^{(j)}代表给定图片中第j个类别对应的预测值
最大池融合在RLSD模型中起到核心环节的作用,在降噪方面具有显著效果.基于平方损失构建损失函数后,将融合层的输出作为多路softmax层的输入进行处理

其中\hat{p}_i = \frac{y_{i}}{\|\,y_{i}\,\|_{1}}表示该表达式表示第ii幅图像的真实概率分布与预测的概率分布。其中N代表图像的数量
如图6所示为所提出的测试图像RLSD模型的设计示意图. 定位层通过生成潜在多标签区域的方式对测试图像进行初步分析,随后从该区域提取特征后经共享LSTM处理后,我们能够观察到诸如酒杯、瓶子及花瓶等小型物件. 该系统还支持基于我们设计的多标签定位网络实现目标物分类功能. 该测试采用端到端的方式进行.

图6: 测试图像的RLSD模型架构示意图,在定位层中识别出测试图像中的潜在多标签区域,并进一步从该区域提取特征并将其输入至共享LSTM网络中进行处理。通过分析这些特征数据后可以看出,在我们开发的多标签定位网络系统下能够准确识别出诸如酒杯、瓶子、花瓶等的小尺寸物体,并将它们正确分类为该区域的一部分。整个测试过程均采用端到端的方式进行
D.初始化和预培训
我们的模型能够全程完成整个流程的运行,并且为了达到最佳效果, 正确的初始化方法以及科学的预处理机制至关重要。
a) 定位层预训练: 我们基于视觉基因组区域标题数据集进行了定位层的预训练工作. 与常规的目标检测数据集不同的是,在该数据集中每个样本图像中通常会同时存在多个目标与丰富的视觉信息. 这种特性使其特别适合于我们开展多标签区域定位研究的任务.
b) LSTM预训练: 在模型的构建阶段,LSTM网络首先会对全局图像进行了系统的预处理. 在没有候选区域存在的前提下, 每个时间步长都会采用当前全局图像的真实标签信息来计算损失函数值. 然后我们将经过预先严格培训好的LSTM网络参数作为本研究中所提出的RLSD模式下的区域级LSTM架构初始权重值输入. 经过实验验证发现这一初始化策略对于加快模型收敛速度具有十分重要的意义.
4.实验
在本节中
4.1 评价指标
采用的评估标准包括计算预测标签的准确性和召回率。在每个测试图像中,我们选取前k个最高-ranked标签,并与该图像的真实标签进行对比。准确率等于正确标注的标签数量除以所有预测到的标签数量;召回率等于正确标注的标签数量除以真实存在的所有标签数量。根据以下公式段落, 我们计算总体准确率与召回率(OP&OR)以及各层级上的准确率与召回率(CP&CR). 此外, 我们还计算了用于评估的标准均值准确率(mAP):

4.2 在Microsoft COCO的实验结果
Microsoft COCO 数据集[49] 是一个规模宏大的基准数据库,在多个视觉任务中得到了广泛应用。该集合包含了总计 123,287 张图片用于训练与验证过程,在其中 80 个具体物体类别被进行了详细标注。在实际应用中,默认情况下我们会将每张图片上所有被标注的目标类别视为多标签的真实标记,并以训练集中作为学习用例的数据集进行训练,并以验证集作为测试依据的数据集进行评估。经过筛选去除未标注的所有图像后,最终我们得到了 82,081 张可用于训练的数据图片以及 40,137 张用于测试的数据图片。为了获取这些标签之间的语义关联性信息并构建其语义依存关系网络模型,在统计分析计算的基础上形成了一个基于共现率的标签关联矩阵表征结构特征。实验结果表明该标签集合具有很强的语义依存特性:例如键盘类与计算机类目标特征之间具有高度的一致性出现特征显著存在

5.结论
多标签图像分类被视为多媒体领域的重要议题之一 因为其不仅比单标签图像分类更具挑战性 还更贴近真实场景
