【论文阅读笔记】Recurrent fusion network for image captioning.
Recurrent fusion network for image captioning.
ECCV 2018.
W. Jiang, L. Ma, Y.-G. Jiang, W. Liu, and T. Zhang.
- 问题
基于该框架的现有模型主要依赖于单一卷积神经网络,并且仅聚焦于单一视角来解析图像内容。由此可见,这种设计限制了其在复杂场景下的表现能力。无法有效捕捉输入图像的深层语义信息,并且导致生成的质量和效果难以超越现有的方法。
- 思路
通过多层卷积神经网络编码器提取出多种表征。这些表征既更加多样化且覆盖范围更为广泛的信息相互补充。随后将提取的信息进行融合处理,并将其输入解码器以完成整个过程的自动化操作。(RFNet)
融合过程基于encoder输出的信息进行交互来生成简洁且富含内容的表示
- 方法
Recurrent Fusion Network (RFNet)

1.encoder。有m个CNN。每个CNN都对图像进行表示,记为A,它由km个区域组成。

将输出的隐藏状态定义为思维向量,并通过阶段1I中的M个表示生成一组包含M个中间层表示。经过融合处理后得到一个综合的结果,并将其用作阶段2的初始信息源。

①阶段1
由M个组件构成的系统中,在分析组件间交互时发现:每一个组件都需要被前一个时间步骤中所有生成物(Ht)所记录下来


由第m个组件生成的思维向量集合记为(T1是阶段1的时间步数):

②阶段2
初始化隐藏状态和记忆单元(这里取平均值)。

在每个时间段内应用注意力机制处理生成的M个思维向量以生成上下文向量

状态更新为:

收集融合阶段II的隐藏状态,形成思维向量集记为(T2是阶段2的时间步数):

在第二阶段中将第一阶段的输出进行整合和压缩,在这一过程中仅生成一个综合性的思维向量,并从而能够为解码器提供更多有用的信息。
decoder 解码模块负责将融合过程产生的信息转化为自然句 初始隐藏状态与存储单元直接来源于融合阶段2的最后一个步骤


- 总结
循环融合网络(RFNet),基于多个图像表示间的综合信息来进行图像标题生成。在RFNet架构中,默认情况下其编码器和解码器间存在一种循环反馈机制。该反馈机制划分为两个主要环节,在第一个环节中系统主要基于吸收其他图像表征所携带的多模态特征,并对每个输入样本进行压缩处理;随后第二个环节则对上一阶段所得的结果进一步浓缩为一组新的思维向量,并将其作为解码器注意力机制处理的对象。
2022-02-17
by littleoo
