Cnn-rnn: A unified framework for multi-label image classification 在被引用文章中的相关叙述

阅读量：

1.Deep Convolutional Neural Networks for Image Classification: A Comprehensive Review

相应描述

DCNN用于从图片中提取语义表述，而RNN用于图像-标签之间和标签-标签之间的关系进行建模。

2.Image captioning and visual question answering based on attributes and external knowledge

相应描述

这种端到端的CNN-RNN方法忽略了图像到词的映射，这是前面详细介绍的许多图像描述系统中的一个重要步骤。CNN-RNN方法的优点是能够生成更广泛的标签，可以端到端地进行训练，并且在基准上优于以前的方法。然而，目前还不清楚其中中高级表示的影响是什么，特别是RNN语言模型可能在多大程度上起到了补偿作用。

论文模型结构

给定图像，首先应用CNN生成基于属性的表示Vatt（I）。内部文本表示由基于图像属性生成的图像标题组成。标题LSTM在生成每个标题中的最后一个单词后的隐藏状态用作其矢量表示。然后将这些向量聚合为具有平均池的Vcap（I）。从知识库中挖掘外部知识，并用Doc2Vec对响应进行编码，生成向量Vknow（I）。这3个向量V被组合成场景内容的单一表示形式，输入到VQA LSTM模型中，该模型解释问题并生成答案

3.Neural Motifs: Scene Graph Parsing with Global Context

论文模型结构

该模型用于获取图像中的结构关系，如：人骑在车上。该模型结构为基于Faster-RCNN以预测出bounding regions，bounding regions的内容为一个对象，一个bounding regions中可能存在多个bounding regions，其形式如下图所示。
bounding regions 示意图将所预测出的bounding regions微调后通过LSTM计算出bounding regions之间的关系。如上图所示，“man has shirt”中的“man” 与“shirt”由faster-RCNN获取，“has”由LSTM计算得到。

与标题中提到的CNN-RNN论文不同，该论文关于多标签的预测是由RPN网络进行，而非使用CNN进行特征提取之后经由RNN获取多标签结果。该论文中RNN用于获取各标签之间可能存在的结构关系（如：“has”），但其RPN的思想可能可以用于提升CNN-RNN结构预测的精度。

4.Learning Spatial Regularization with Image-level Supervisions

相应描述

对于多标签分类而言，尽管发掘语义之间的联系，已经取得了显著成效，显存的模型无法获取标签的空间联系，因为它们的空间位置没有在训练过程中被标注出来。

论文模型结构

在这里插入图片描述
与CNN-RNN不同，该模型不直接对标签进行编码操作。

5.LEARNING TO DIAGNOSE FROM SCRATCH BY EXPLOITING DEPENDENCIES AMONG LABELS

相应描述

在非医疗环境中，Wang等人于2016年提出了类似的ConvNet RNN架构。他们选择使用RNN解码器也是出于对标签依赖性建模的愿望。
然而，他们以Shin等人的方式进行训练和推理。应用程序、体系结构和推理结合的另一个例子来自Chen等人，其工作重点是消除使用预定义标签订单进行培训的必要性。我们在实验中表明，当模型经过充分训练时，排序似乎并没有作为一个重要的约束。

论文模型

将Wang的CNN-RNN模型中的Vgg16替换为Densenet，本质思想与Wang的CNN-RNN相同。

6.Learning Deep Latent Spaces for Multi-Label Classification

论文模型

在这里插入图片描述
该模型输入为图像矩阵X与标签矩阵Y，之后通过Fx，Fe，Fd学习隐藏联系，使用新算法取代了RNN结构。

7.Improving Pairwise Ranking for Multi-label Image Classification

论文模型

关键是自定义损失函数LSEP和threshold方法。

8.Multi-label image recognition by recurrently discovering attentional regions

模型结构

在这里插入图片描述
简而言之是通过添加spatial transformer层，通过截取特征图像中特定的区域找到特征与标签之间更为确切的联系。从而达到更好的表现。

9.Semantic Regularisation for Recurrent Image Annotation

模型结构

在这里插入图片描述
从上图可以看出，该模型与Wang的模型不同之处在于其额外将label之间的联系提前进行了训练并形成了模型，而Wang的模型中仅CNN是预训练好的，标签之间的关系并没有进行预训练。在训练整体模型的时候，该模型将已经训练过的CNN与已训练过的RNN进行结合，之后在此基础上再训练出最终的模型。
这样的方法让RNN在最初无需处理image-label之间的联系，可以专心寻找label-label之间的联系，之后在整体训练的过程中处理学习image-label之间的联系。

10.FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras

论文模型

11.Attribute Recognition by Joint Recurrent Learning of Context and Correlation

论文模型

在这里插入图片描述
本模型的特点是首先使用CNN提取图像特征，随后将图像进行分割之后使用LSTM编码-LSTM解码的encoder-attention-decoder模型进行处理。本论文中的模型与CNN-RNN不同之处不仅在于其多了一层RNN结构，在处理行人识别的模糊问题上还进行了一些操作。

全部评论 (0)

还没有任何评论哟~

Cnn-rnn: A unified framework for multi-label image classification 在被引用文章中的相关叙述

1.DeepConvolutionalNeuralNetworksforImageClassification:AComprehensiveReview 相应描述 DCNN用于从图片中提取语义表述，而...

CNN-RNN: A Unified Framework for Multi-label Image Classification(CVPR 2016)

CNNRNN:AUnifiedFrameworkforMultilabelImageClassification PaperPDF 文章目录 Introduction Innovation Metho...

多标签分类（一) | CNN-RNN: A Unified Framework for Multi-label Image Classification

CNNRNN:一种统一的多标签图像分类框架文章是2017CVPR的，主要用于多标签图像分类摘要虽然深度卷积神经网络CNNs在单标签图像分类方面取得了巨大成功，但需要注意的是，现实世界的图像通常包...

论文笔记 | CNN-RNN:A Unified Framework for Multi-label Image Classification

Authors JiangWangYiYangJunhuaMaoZhihengHuangChangHuangWeiXu WangJiang Abstract 利用了CNN和RNN，考虑了类别之间的de...

多标签分类(十一):HCP: A Flexible CNN Framework for Multi-Label Image Classification

HCP:灵活的CNN多标签图像分类框架摘要卷积神经网络CNN在单标签图像分类任务中表现出了良好的性能.但是CNN如何最好的处理多标签图像仍然是一个有待解决的问题，主要是由于底层对象布局复杂，多标签...

VAC： Visual attention consistency under image transforms for multi-label image classification

摘要：图片的改变可以作为增加数据集训练集的一种方法，在此基础上，研究发现经过图片翻转后，对于图片的注意力，和相对识别部分的热度图并没有太大改变。基于此，输入翻转前和翻转后的两类图片，在生成一个损失函数...

论文阅读理解 - Learning Spatial Regularization for Multi-label Image Classification

LearningSpatialRegularizationwithImagelevelSupervisionsforMultilabelImageClassification [[CaffeCode]...

PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

全文摘要本文介绍了一种名为PETRv2的统一框架，用于从多视图图像中进行三维感知。该框架基于先前提出的PETR框架，并探索了时间建模的有效性，利用前一帧的时间信息来提高三维物体检测效果。

Learning Disentangled Label Representations for Multi-label Classification

LearningDisentangledLabelRepresentationsforMultilabelClassification，2022 学习多标签分类的解纠缠标签表示要点： 1、主流多标签...

Asymmetric Loss for Multi-Label Classification

AsymmetricLossforMultiLabelClassification，ICCV，2021 多标签分类的不对称损失要点图像正负失衡主导优化过程，可能导致在训练过程中对正标签的梯度强调不...

Cnn-rnn: A unified framework for multi-label image classification 在被引用文章中的相关叙述

1.Deep Convolutional Neural Networks for Image Classification: A Comprehensive Review

相应描述

2.Image captioning and visual question answering based on attributes and external knowledge

相应描述

论文模型结构

3.Neural Motifs: Scene Graph Parsing with Global Context

论文模型结构

4.Learning Spatial Regularization with Image-level Supervisions

相应描述

论文模型结构

5.LEARNING TO DIAGNOSE FROM SCRATCH BY EXPLOITING DEPENDENCIES AMONG LABELS

相应描述

论文模型

6.Learning Deep Latent Spaces for Multi-Label Classification

相关论述

论文模型

7.Improving Pairwise Ranking for Multi-label Image Classification

相关描述

论文模型

8.Multi-label image recognition by recurrently discovering attentional regions

相关描述

模型结构

9.Semantic Regularisation for Recurrent Image Annotation

相关描述

模型结构

10.FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras

相关描述

论文模型

11.Attribute Recognition by Joint Recurrent Learning of Context and Correlation

相关描述

论文模型

全部评论 (0)

是否确定退出登录?

Cnn-rnn: A unified framework for multi-label image classification 在被引用文章中的相关叙述

1.Deep Convolutional Neural Networks for Image Classification: A Comprehensive Review

相应描述

2.Image captioning and visual question answering based on attributes and external knowledge

相应描述

论文模型结构

3.Neural Motifs: Scene Graph Parsing with Global Context

论文模型结构

4.Learning Spatial Regularization with Image-level Supervisions

相应描述

论文模型结构

5.LEARNING TO DIAGNOSE FROM SCRATCH BY EXPLOITING DEPENDENCIES AMONG LABELS

相应描述

论文模型

6.Learning Deep Latent Spaces for Multi-Label Classification

相关论述

论文模型

7.Improving Pairwise Ranking for Multi-label Image Classification

相关描述

论文模型

8.Multi-label image recognition by recurrently discovering attentional regions

相关描述

模型结构

9.Semantic Regularisation for Recurrent Image Annotation

相关描述

模型结构

10.FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras

相关描述

论文模型

11.Attribute Recognition by Joint Recurrent Learning of Context and Correlation

相关描述

论文模型

全部评论 (0)

相关文章推荐

Cnn-rnn: A unified framework for multi-label image classification 在被引用文章中的相关叙述

CNN-RNN: A Unified Framework for Multi-label Image Classification(CVPR 2016)

多标签分类（一) | CNN-RNN: A Unified Framework for Multi-label Image Classification

论文笔记 | CNN-RNN:A Unified Framework for Multi-label Image Classification

多标签分类(十一):HCP: A Flexible CNN Framework for Multi-Label Image Classification

VAC： Visual attention consistency under image transforms for multi-label image classification

论文阅读理解 - Learning Spatial Regularization for Multi-label Image Classification

PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

Learning Disentangled Label Representations for Multi-label Classification

Asymmetric Loss for Multi-Label Classification