Advertisement

【多模态论文阅读】MUTAN: Multimodal Tucker Fusion for Visual Question Answering

阅读量:

一、背景

请添加图片描述

对于MCB架构来说,在权重矩阵中被预先设定的是两个独立的部分:权重矩阵q(W_q)和权重矩阵v(W_v),而权重矩阵o(W_o)则通过神经网络进行动态调整以适应不同的任务需求。值得注意的是,在实际应用中通常会采用大量固定的权重以减少计算开销,并基于高维输出特征进行优化以提升模型稳定性;然而这种做法也存在一定的局限性:因为过大的内存占用可能导致模型无法处理复杂的任务场景

对于MLB来说,在其应用中尽管W_q、W_v、W_o均为可训练参数(trainable parameters),相比之下T_c是一个固定参数(fixed parameter),相较于MUTAN需要学习更多的参数(more parameters)且其收敛速度较慢(slower convergence rate)。

本文提出了一种名为MUTAN的方法——基于多模态张量 Tucker 分解方法,在视觉与文本的双线性交互机制(Bilinear models)中实现了参数化。

二、模型结构

请添加图片描述

2.1 Tucker分解

三阶张量T的其Tucker分解表示是因子里的矩阵W_v, W_q, W_o与其核心张量T_c所形成的张成空间。

请添加图片描述

2.2 多模态Tucker融合

通过将张量T用其 Tucker 分解方程参数化来表示其权重时,则 y 的输出可以这样表示:

请添加图片描述

这本质上相当于将q和v的投影进行完整的双线性交互编码生成一个潜在对表示z,并利用这一潜在代码来进行答案的预测。例如:通过这一潜在代码来进行答案的预测。

请添加图片描述

2.3 解释

W_q,W_v :将问题与图像矢量投影至t_qt_v各自对应的子空间中,在t_qt_v维度上具有更高的复杂度时,模型整体也会变得更加复杂。
T_c:用于模拟\tilde{q}\tilde{v}间的相互作用机制。它通过从所有相关联的\tilde{q}[i]\tilde{v}[j]中学习得到一个大小为t_o的向量z的投影表示。在此过程中,T_c主要负责模态间交互关系的具体构建方式。
W_o:为A中的每一类别嵌入z提供一个评分标准

参考资料

MUTAN:Multimodal Tucker Fusion For Visual Question Answering

全部评论 (0)

还没有任何评论哟~