论文笔记 Cross-modal Bidirectional Translation via Reinforcement Learning
Cross-modal Bidirectional Translation via Reinforcement Learning
首先介绍一下这篇文章的目的,并对其主要功能进行说明:主要功能是对给定文本及其相关图片评估匹配度。具体来说,并非用于实际翻译操作而是提供一种评估机制。接下来分析其网络架构

左侧采用了一个text-CNN架构,在此架构下,其输出传递至LSTM模块进行时序建模后,并将各隐藏层的特征进行融合汇总作为整体表征向量。右侧采用了另一种常见的CNN架构,在该模型中,其二维特征图经过展开处理形成一维序列,并经由一系列全连接层进行映射转换以供后续模型使用。我认为右侧在表征过程中可能会损失部分空间信息,在此推测右侧模型可能会出现某些问题:因为按行拉长的话,本来两行之间距离很近的像素会由于在序列模型中的位置被拉伸开来而导致距离过长的问题。这可能导致相邻行像素之间的空间关系在序列模型中被忽视或错误地建模。
此外,在应用层面来看,CNN+LSTM这一类技术也具有很高的吸引力.将输入文本中的词向量展现在序列维度上后,每个输入文本段落实际上是一个二维数组表示.然而需要注意的是,在左侧和右侧的位置分别采用了不同配置的卷积神经网络.具体来说,左侧卷积层的感受野宽度等于词向量空间的维度.
我认为这篇文章中的有用想法主要体现在其提出的损失函数具有双向特性。具体而言,在模型设计中,我们采用了一种双线性损失机制:首先将左侧文本空间中的表征A通过全连接层f1映射到对应的图像空间B中;随后,在右侧图像空间中再次应用全连接层f2将表征进一步映射为C。
最后他会计算出A与B之间以及A与C之间各自的相似程度,并将这些结果进行加权求和后用作最终的损失函数。
这篇论文的内容基本上涵盖了所有相关方面。在损失函数这一部分中提到了一个被称为"Reinforcement Learning Procedure"的章节标题名。看起来与强化学习之间的关联并不明显,在文中提到通过采用强化学习方法来解决这个问题。然而,在论文中是否涉及了强化学习的相关内容呢?在第3.2节中指出该方法采用了强化学习策略,并归因于使用了政策梯度算法。而你的政策似乎缺少了一些关键要素:没有这些必要组件——比如agent(你的policy)、环境(environment)、动作(action)以及状态(state)。不过,请注意,在本研究中确实存在状态变量(state),但这里的状态并不是马尔可夫决策过程中的传统状态概念——而是基于长短期记忆网络(LSTM)的状态信息。
