【多模态论文阅读】MUTAN: Multimodal Tucker Fusion for Visual Question Answering

阅读量：

一、背景

对于MCB架构来说，在权重矩阵中被预先设定的是两个独立的部分：权重矩阵 $q（W_q）和权重矩阵$ v（W_v），而权重矩阵o（W_o）则通过神经网络进行动态调整以适应不同的任务需求。值得注意的是，在实际应用中通常会采用大量固定的权重以减少计算开销，并基于高维输出特征进行优化以提升模型稳定性；然而这种做法也存在一定的局限性：因为过大的内存占用可能导致模型无法处理复杂的任务场景

对于MLB来说，在其应用中尽管 $W_q、W_v、W_o$ 均为可训练参数（trainable parameters），相比之下 $T_c$ 是一个固定参数（fixed parameter），相较于MUTAN需要学习更多的参数（more parameters）且其收敛速度较慢（slower convergence rate）。

本文提出了一种名为MUTAN的方法——基于多模态张量 Tucker 分解方法，在视觉与文本的双线性交互机制（Bilinear models）中实现了参数化。

二、模型结构

2.1 Tucker分解

三阶张量T的其Tucker分解表示是因子里的矩阵W_v, W_q, W_o与其核心张量T_c所形成的张成空间。

2.2 多模态Tucker融合

通过将张量 $T$ 用其 Tucker 分解方程参数化来表示其权重时，则 $y$ 的输出可以这样表示:

这本质上相当于将q和v的投影进行完整的双线性交互编码生成一个潜在对表示z，并利用这一潜在代码来进行答案的预测。例如：通过这一潜在代码来进行答案的预测。

2.3 解释

$W_q,W_v$ ：将问题与图像矢量投影至 $t_q$ 及 $t_v$ 各自对应的子空间中，在 $t_q$ 或 $t_v$ 维度上具有更高的复杂度时，模型整体也会变得更加复杂。
$T_c$ ：用于模拟 $\tilde{q}$ 与 $\tilde{v}$ 间的相互作用机制。它通过从所有相关联的 $\tilde{q}[i]$ 与 $\tilde{v}[j]$ 中学习得到一个大小为 $t_o$ 的向量z的投影表示。在此过程中， $T_c$ 主要负责模态间交互关系的具体构建方式。
$W_o$ ：为A中的每一类别嵌入z提供一个评分标准

参考资料

MUTAN:Multimodal Tucker Fusion For Visual Question Answering

全部评论 (0)

还没有任何评论哟~

【多模态论文阅读】MUTAN: Multimodal Tucker Fusion for Visual Question Answering

一、背景对于MCB来说，Wq和Wv是固定参数，仅仅Wo是可学习参数。很多参数是固定的，依赖于高维输出特征来保证稳健的性能，这可能会由于巨大的内存使用量而限制其适用性。对于MLB来说，虽然Wq、Wv...

《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记

《MUTAN:MultimodalTuckerFusionforVisualQuestionAnswering》阅读笔记一、研究背景 Bilinearmodels在视觉问答（VQA）任务中进行信息融...

【多模态论文阅读】Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual

一、亮点在融合文本和视觉两种模态的时候，通常使用concatenation的方法或者elementwise乘积or求和，但是我们认为这些方法不如两个向量之间的外积那样具有表现力。与元素积相比，外积计...

【多模态】《Hierarchical Question-Image Co-Attention for Visual Question Answering》论文阅读笔记

一、概述这篇文章做的是VQA 与之前介绍的几篇文章用问题query对图像做attention不同的是，这篇文章最大的亮点在于：在本文中，我们认为除了建模“看哪里”或视觉注意力之外，建模“听什么词”或...

【多模态】《High-Order Attention Models for Visual Question Answering》论文阅读笔记

这篇文章做的是VQA。同时，这篇文章集成了基于attention的多模态融合方法和基于双线性池化的多模态融合方法，为做VQA等多模态任务提供了很好的思路。模型比较简单，但高效。简单之处在于模型的组...

【多模态】《Where To Look: Focus Regions for Visual Question Answering》论文阅读笔记

1\.模型概述这篇论文做的是视觉问答。模型的主要创新点在于将来自不同区域的视觉特征[v1,v2,...,vK]和文本查询q映射到一个共享空间中，然后在该空间中通过计算内积来衡量两种模态之间的相关性，...

2020：MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering

摘要我们提出MMFTBERT来解决VQA，确保多个输入模态的单个和结合处理。我们的方法受益于分别采用BERT编码并使用一个新的基于transformer的融合模型处理多模态数据。我们的方法将不同模态...

【多模态】《Attention Bottlenecks for Multimodal Fusion》论文阅读笔记

一、概述这篇文章做的是视频分类，即通过视频帧的特征和声音特征这两种模态进行多模态融合并分类。这篇文章的思路非常巧妙，采用了Transformer的结构对多种模态的特征进行了编码，因为Transfo...

In Defense of Grid Features for Visual Question Answering论文阅读

InDefenseofGridFeaturesforVisualQuestionAnswering论文阅读 Abstract 作为“自底向上”关注，基于边界框（或区域）的视觉特征最近已经超过了普通的基...

[VQA论文阅读]RUBi Reducing Unimodal Biases for Visual Question Answering

改变样本权重减小最有偏置的样本的重要程度：比如那些不需要看图片就能够回答正确的样本这样会让模型不再依赖于两个模态，而是使用统计概率解决问题我们使用了一个只有问题的模型，能够通过识别不想要的规律被...

是否确定退出登录?

【多模态论文阅读】MUTAN: Multimodal Tucker Fusion for Visual Question Answering

一、背景

二、模型结构

2.1 Tucker分解

2.2 多模态Tucker融合

2.3 解释

参考资料

全部评论 (0)

相关文章推荐

【多模态论文阅读】MUTAN: Multimodal Tucker Fusion for Visual Question Answering

《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》阅读笔记

【多模态论文阅读】Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual

【多模态】《Hierarchical Question-Image Co-Attention for Visual Question Answering》论文阅读笔记

【多模态】《High-Order Attention Models for Visual Question Answering》论文阅读笔记

【多模态】《Where To Look: Focus Regions for Visual Question Answering》论文阅读笔记

2020：MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering

【多模态】《Attention Bottlenecks for Multimodal Fusion》论文阅读笔记

In Defense of Grid Features for Visual Question Answering论文阅读

[VQA论文阅读]RUBi Reducing Unimodal Biases for Visual Question Answering