【多模态论文阅读】MUTAN: Multimodal Tucker Fusion for Visual Question Answering
一、背景

对于MCB架构来说,在权重矩阵中被预先设定的是两个独立的部分:权重矩阵q(W_q)和权重矩阵v(W_v),而权重矩阵o(W_o)则通过神经网络进行动态调整以适应不同的任务需求。值得注意的是,在实际应用中通常会采用大量固定的权重以减少计算开销,并基于高维输出特征进行优化以提升模型稳定性;然而这种做法也存在一定的局限性:因为过大的内存占用可能导致模型无法处理复杂的任务场景
对于MLB来说,在其应用中尽管W_q、W_v、W_o均为可训练参数(trainable parameters),相比之下T_c是一个固定参数(fixed parameter),相较于MUTAN需要学习更多的参数(more parameters)且其收敛速度较慢(slower convergence rate)。
本文提出了一种名为MUTAN的方法——基于多模态张量 Tucker 分解方法,在视觉与文本的双线性交互机制(Bilinear models)中实现了参数化。
二、模型结构

2.1 Tucker分解
三阶张量T的其Tucker分解表示是因子里的矩阵W_v, W_q, W_o与其核心张量T_c所形成的张成空间。

2.2 多模态Tucker融合
通过将张量T用其 Tucker 分解方程参数化来表示其权重时,则 y 的输出可以这样表示:

这本质上相当于将q和v的投影进行完整的双线性交互编码生成一个潜在对表示z,并利用这一潜在代码来进行答案的预测。例如:通过这一潜在代码来进行答案的预测。

2.3 解释
W_q,W_v :将问题与图像矢量投影至t_q及t_v各自对应的子空间中,在t_q或t_v维度上具有更高的复杂度时,模型整体也会变得更加复杂。
T_c:用于模拟\tilde{q}与\tilde{v}间的相互作用机制。它通过从所有相关联的\tilde{q}[i]与\tilde{v}[j]中学习得到一个大小为t_o的向量z的投影表示。在此过程中,T_c主要负责模态间交互关系的具体构建方式。
W_o:为A中的每一类别嵌入z提供一个评分标准
参考资料
MUTAN:Multimodal Tucker Fusion For Visual Question Answering
