Cnn-rnn: A unified framework for multi-label image classification 在被引用文章中的相关叙述
1.Deep Convolutional Neural Networks for Image Classification: A Comprehensive Review
相应描述
DCNN用于从图片中提取语义表述,而RNN用于图像-标签之间和标签-标签之间的关系进行建模。
2.Image captioning and visual question answering based on attributes and external knowledge
相应描述
这种端到端的CNN-RNN方法忽略了图像到词的映射,这是前面详细介绍的许多图像描述系统中的一个重要步骤。CNN-RNN方法的优点是能够生成更广泛的标签,可以端到端地进行训练,并且在基准上优于以前的方法。然而,目前还不清楚其中中高级表示的影响是什么,特别是RNN语言模型可能在多大程度上起到了补偿作用。
论文模型结构

3.Neural Motifs: Scene Graph Parsing with Global Context
论文模型结构
该模型用于获取图像中的结构关系,如:人骑在车上。该模型结构为基于Faster-RCNN以预测出bounding regions,bounding regions的内容为一个对象,一个bounding regions中可能存在多个bounding regions,其形式如下图所示。
将所预测出的bounding regions微调后通过LSTM计算出bounding regions之间的关系。如上图所示,“man has shirt”中的“man” 与“shirt”由faster-RCNN获取,“has”由LSTM计算得到。
与标题中提到的CNN-RNN论文不同,该论文关于多标签的预测是由RPN网络进行,而非使用CNN进行特征提取之后经由RNN获取多标签结果。该论文中RNN用于获取各标签之间可能存在的结构关系(如:“has”),但其RPN的思想可能可以用于提升CNN-RNN结构预测的精度。
4.Learning Spatial Regularization with Image-level Supervisions
相应描述
对于多标签分类而言,尽管发掘语义之间的联系,已经取得了显著成效,显存的模型无法获取标签的空间联系,因为它们的空间位置没有在训练过程中被标注出来。
论文模型结构

与CNN-RNN不同,该模型不直接对标签进行编码操作。
5.LEARNING TO DIAGNOSE FROM SCRATCH BY EXPLOITING DEPENDENCIES AMONG LABELS
相应描述
在非医疗环境中,Wang等人于2016年提出了类似的ConvNet RNN架构。他们选择使用RNN解码器也是出于对标签依赖性建模的愿望。
然而,他们以Shin等人的方式进行训练和推理。应用程序、体系结构和推理结合的另一个例子来自Chen等人,其工作重点是消除使用预定义标签订单进行培训的必要性。我们在实验中表明,当模型经过充分训练时,排序似乎并没有作为一个重要的约束。
论文模型
将Wang的CNN-RNN模型中的Vgg16替换为Densenet,本质思想与Wang的CNN-RNN相同。
6.Learning Deep Latent Spaces for Multi-Label Classification
相关论述
CNN-RNN(Wang 2016)选择学习线性标签嵌入函数,通过递归神经网络(RNN)观察标签共现信息。然而,由于只考虑线性嵌入,不同标签之间的高阶依赖关系可能无法被成功发现。
论文模型

该模型输入为图像矩阵X与标签矩阵Y,之后通过Fx,Fe,Fd学习隐藏联系,使用新算法取代了RNN结构。
7.Improving Pairwise Ranking for Multi-label Image Classification
相关描述
仅使用Wang的CNN-RNN论文中模型的结果作为state-of-the-art结果与该论文结果进行比较
论文模型
关键是自定义损失函数LSEP和threshold方法。
8.Multi-label image recognition by recurrently discovering attentional regions
相关描述
近期,Wang 等人提出联合标注语义标签联系和图像-标签之间的联系,这是通过结合RNN和CNN来实现的,但是他们的模型没有考虑到清晰的语义与图像区域之间的联系,并且没有能够完整获取图像中的空间信息。
模型结构

简而言之是通过添加spatial transformer层,通过截取特征图像中特定的区域找到特征与标签之间更为确切的联系。从而达到更好的表现。
9.Semantic Regularisation for Recurrent Image Annotation
相关描述
我们的模型是与Wang的模型相联系的,但是,我们的模型使用了一个语义规范的图像嵌入层(a semantically regularised image embedding layer)作为交互层而不是一个未规范化的CNN特征层。
模型结构

从上图可以看出,该模型与Wang的模型不同之处在于其额外将label之间的联系提前进行了训练并形成了模型,而Wang的模型中仅CNN是预训练好的,标签之间的关系并没有进行预训练。在训练整体模型的时候,该模型将已经训练过的CNN与已训练过的RNN进行结合,之后在此基础上再训练出最终的模型。
这样的方法让RNN在最初无需处理image-label之间的联系,可以专心寻找label-label之间的联系,之后在整体训练的过程中处理学习image-label之间的联系。
10.FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras
相关描述
但是,现有的工作中没有针对时空关系(spatio-temporal correlation)进行建模,尤其是在这方面将CNN/FCN和RNN/LSTM进行组合。
论文模型

11.Attribute Recognition by Joint Recurrent Learning of Context and Correlation
相关描述
在解决多标签分类的问题上,之前已经有Wang等人的CNN-RNN结构,而本论文是基于CNN-RNN-RNN结构。由于本论文讨论的问题是行人识别问题,因此其标签之间并没有特定的顺序,这与image caption不同,为了解决这个问题,可以自定义一个顺序,比如Wang等人的frequency first。
论文模型

本模型的特点是首先使用CNN提取图像特征,随后将图像进行分割之后使用LSTM编码-LSTM解码的encoder-attention-decoder模型进行处理。本论文中的模型与CNN-RNN不同之处不仅在于其多了一层RNN结构,在处理行人识别的模糊问题上还进行了一些操作。
