论文笔记 Cross-modal Bidirectional Translation via Reinforcement Learning

阅读量：

首先介绍一下这篇文章的目的，并对其主要功能进行说明：主要功能是对给定文本及其相关图片评估匹配度。具体来说，并非用于实际翻译操作而是提供一种评估机制。接下来分析其网络架构

左侧采用了一个text-CNN架构，在此架构下，其输出传递至LSTM模块进行时序建模后，并将各隐藏层的特征进行融合汇总作为整体表征向量。右侧采用了另一种常见的CNN架构，在该模型中，其二维特征图经过展开处理形成一维序列，并经由一系列全连接层进行映射转换以供后续模型使用。我认为右侧在表征过程中可能会损失部分空间信息，在此推测右侧模型可能会出现某些问题：因为按行拉长的话，本来两行之间距离很近的像素会由于在序列模型中的位置被拉伸开来而导致距离过长的问题。这可能导致相邻行像素之间的空间关系在序列模型中被忽视或错误地建模。

此外，在应用层面来看,CNN+LSTM这一类技术也具有很高的吸引力.将输入文本中的词向量展现在序列维度上后,每个输入文本段落实际上是一个二维数组表示.然而需要注意的是,在左侧和右侧的位置分别采用了不同配置的卷积神经网络.具体来说,左侧卷积层的感受野宽度等于词向量空间的维度.

我认为这篇文章中的有用想法主要体现在其提出的损失函数具有双向特性。具体而言，在模型设计中，我们采用了一种双线性损失机制：首先将左侧文本空间中的表征A通过全连接层f1映射到对应的图像空间B中；随后，在右侧图像空间中再次应用全连接层f2将表征进一步映射为C。

最后他会计算出A与B之间以及A与C之间各自的相似程度，并将这些结果进行加权求和后用作最终的损失函数。

这篇论文的内容基本上涵盖了所有相关方面。在损失函数这一部分中提到了一个被称为"Reinforcement Learning Procedure"的章节标题名。看起来与强化学习之间的关联并不明显，在文中提到通过采用强化学习方法来解决这个问题。然而，在论文中是否涉及了强化学习的相关内容呢？在第3.2节中指出该方法采用了强化学习策略，并归因于使用了政策梯度算法。而你的政策似乎缺少了一些关键要素：没有这些必要组件——比如agent（你的policy）、环境（environment）、动作（action）以及状态（state）。不过，请注意，在本研究中确实存在状态变量（state），但这里的状态并不是马尔可夫决策过程中的传统状态概念——而是基于长短期记忆网络（LSTM）的状态信息。

全部评论 (0)

还没有任何评论哟~

论文笔记 Cross-modal Bidirectional Translation via Reinforcement Learning

CrossmodalBidirectionalTranslationviaReinforcementLearning 先说说这篇文章是做什么的，做跨模态的翻译，但是这里也没有翻译的亚子，只是能给文本呢...

（AM3）Adaptive Cross-Modal Few-shot Learning 论文笔记

前言本文提出了一种利用跨模式（crossmodal）信息（视觉特征和语义特征）来增强基于度量的小样本学习的方法。一般来说，当来自视觉模式的数据有限时，利用辅助模式的数据（属性，未被标记的文本语料库...

论文阅读笔记-Safe Reinforcement Learning via Online Shielding

文章目录 Abstract Introduction Preliminaries OnlineShieldingAlgorithm 算法细节 LQRControl LQRVerification Su...

论文笔记：Cross-modal Contrastive Learning for Multimodal Fake News Detection

CrossmodalContrastiveLearningforMultimodalFakeNewsDetection 文章下载地址：<https://dl.acm.org/doi/abs/10.11...

UNIMO：Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning

本文内容仅代表个人理解，如有错误，欢迎指正 1\.Points 1UNIMO是一个预训练模型，其输入可以有不同的形式eg,Imagecollections,Textcorpus,ImageTextPa...

论文笔记 | MathDQN: Solving Arithmetric Word Problems via Deep Reinforcement Learning

简介 LeiWang和DongxiangZhang团队在AAAI18上发表的文章，使用了DQN来解决MWPMathWordProblem问题。 Motivation 在将问题表达成一个表达式树的时候，...

【论文笔记】Improving Automatic Source Code Summarization via Deep Reinforcement Learning

ImprovingAutomaticSourceCodeSummarizationviaDeepReinforcementLearning 1本文背景软件维护占据软件开发生命周期很大一部分，提供代码...

《COOBA: Cross-project Bug Localization via Adversarial Transfer Learning》论文笔记

论文发表在AI顶会（CCFA）：IJCAI2020。论文链接：<https://www.ijcai.org/proceedings/2020/493 【代码并没开源，邮件了作者，很久也没回复，不过用...

【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeekR1论文解析 1\.论文基本信息标题：DeepSeekR1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearnin...

【论文阅读笔记】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling

本文的核心思想是提出一种名为“共享-特定特征建模（ShaSpec）”的方法，用于处理多模态学习中的缺失模态问题。该方法在训练和评估期间利用所有可用的输入模态，通过**学习共享和特定的特征**来更好地表...

是否确定退出登录?

论文笔记 Cross-modal Bidirectional Translation via Reinforcement Learning

Cross-modal Bidirectional Translation via Reinforcement Learning

全部评论 (0)

相关文章推荐

论文笔记 Cross-modal Bidirectional Translation via Reinforcement Learning

（AM3）Adaptive Cross-Modal Few-shot Learning 论文笔记

论文阅读笔记-Safe Reinforcement Learning via Online Shielding

论文笔记：Cross-modal Contrastive Learning for Multimodal Fake News Detection

UNIMO：Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning

论文笔记 | MathDQN: Solving Arithmetric Word Problems via Deep Reinforcement Learning

【论文笔记】Improving Automatic Source Code Summarization via Deep Reinforcement Learning

《COOBA: Cross-project Bug Localization via Adversarial Transfer Learning》论文笔记

【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

【论文阅读笔记】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling