Learning to Reason: End-to-End Module Networks for Visual Question Answering阅读笔记
本文提出了端到端模块网络框架...它通过精确预测实例化的网络架构来实现高效的推理过程,并能独立运行而不依赖解析器...该模型不仅能够自主生成适合不同场景的网络拓扑结构...还能优化各层参数设置以适应下游应用需求。

图1展示了本研究中所使用的模型架构示意图。在该架构中:
- 对于每个实例,在图1所示的位置上,在模型中预测了一个计算表达式以及一系列关注的模块参数化。
- 这些参数被用来构建一个具体的网络结构,并通过组装完成神经模块间的连接运算以得到回答。
- 最终生成的回答会被用于生成问答的可视化结果。
此外: - 本文提出了一类端到端模块网络(N2NMNs),这类模型能够直接从文本输入预测新的模块化网络结构并将其应用于图像以解决问答任务。
- 相较于现有研究工作,在本方法中将输入文本先解析为语法层次的语义结构,并基于此动态规划布局策略生成合适的神经网络架构。
- 该方法的优势在于:
- 它无需依赖外部解析器来处理输入文本并获得布局信息;
- 而现有的组合式视觉推理模型往往依赖于复杂的外部解析器辅助设计;
- 因此本方法在某种程度上简化了系统设计流程。

图2:模型概述。
首先提取问题的深层表示信息,并将其作为递归神经网络布局预测策略的基础输入。
该策略不仅会生成一系列结构动作(以逆波兰式指定各模块化神经网络模板),还会发出一系列关注动作(从输入语句中提取各神经模块的具体参数)。
这些动作序列被传递给网络构建器,在其指导下动态生成相应的神经网络架构并将其应用于输入图像以获得最终答案。
对于给定的问题实例(例如寻找与半径相同的球体数量),布局策略首先会估计一个粗略的功能表达式(例如count(relocate(find())),该表达式概括了所需的计算步骤。
接着,在该表达式的某些子函数应用中(即执行重定位和平移操作),会利用从问题预测得到的参数向量(此处分别对应球体半径和大小的向量表示)来进一步细化计算过程。
随后根据该精炼后的布局表达式将各相关网络组件进行整合组装以形成完整的模型架构。
最后通过该整合过程生成最终的答案。

表1详细列出了模型中的神经组件集合。每个组件均以0、1或2个注意力图(配合视觉特征与文本特征)作为输入,并生成一个注意力图或得分向量α_i(m)来表示所有可能的答案。

其中wi表示问题中第i个单词的词嵌入向量。在运行阶段中,在处理特定输入时系统会自动组装相应的计算图结构以完成推理任务。在系统架构设计中,在实际运行时各功能块将按照预先定义好的组织方式进行协调配合以实现整体目标。例如,在计算过程中可将各模块按照特定顺序组合成如fm2(fm4(fm1), fm3(fm1, fm1))这样的表达式形式进行处理。
这种组织方式能够有效捕捉复杂的问题解答路径并将其转化为高效的算法实现方案。
在本文提出的模型体系框架下,在识别关键实体后系统会根据预训练的语言模型生成相应的上下文理解表示进而指导后续推理过程。
该组织策略能够通过逐步分解复杂任务使得系统的处理能力得到显著提升同时也能保证良好的扩展性和可维护性。

图3展示了如何将任意布局表达式线性化为一系列模块标记的例子。当将每个布局l转化为一个模块标记序列{m(t)}时,则会使得布局预测问题转化为从问题到模块标记的sequence-to-sequence学习任务。本文采用注意递归神经网络来解决这一问题。首先,在问题中每个单词i会被嵌入到向量wi中(同时嵌入所有模块符号),然后通过多层LSTM网络作为输入的问题编码器工作。对于包含T个单词的问题q来说,在编码器LSTM输出长度为T的一个序列[h₁, h₂, …, h_T]之后,在解码器时间步t处,则会通过LSTM网络对输入序列上的软注意映射进行预测工作。在解码器的时间步t处时,在输入单词i∈{1,…,t}的位置上都会有一个对应的注意权重αti被赋予出来。

其中hi和ht分别代表编码器时间步骤i和解码器时间步骤t处的LSTM输出结果,模型参数v、W1和W2是通过数据进行训练而获得的。接着能够生成上下文向量ct=

该系统模块标记m\left(\text{t}\right)发生的概率将通过h_t与c_t进行预测计算得到。具体而言,在条件概率分布p\left(m\left(\text{t}|\text{ } m\left(1\right), \dots, m\left(\text{t}-1\right), q\right)\right)的基础上应用Softmax函数生成结果。随后将计算出的概率分布进行随机采样处理,并对采样结果进行离散化处理以获得下一时刻的标记m\left(\text{t}\right)。接着通过利用等式(3)中的注意力权重\alpha_{ti}以及结合等式(1)的信息构建当前时刻的文本输入x_{t}^{\text{txt}}。最后系统将计算布局l发生的概率p(l | q)

2.3 End-to-end training
训练损失函数:

三、实验结果

表2:模型在SHAPES数据集中的性能。

图4:CLEVR数据集上的问答示例。左侧显示模型精确识别哑光绿色球并注意其他相同尺寸对象后确认共有四个这样的物体(不包含初始哑光球)。右侧各模块均基于直观意义进行了推测,在第二个find组件中发现不仅有金属红色物品还解析了右侧关键词这表明模型可基于这一观察将目标区域集中在图像左半部分进行深入搜索

表3:对本文的方法与以前在CLEVR测试集上的工作进行评价。基于复制后的搜索策略,在各类问题类型下(特别是涉及颜色比较的问题上),系统的准确率均呈现持续增长趋势,并取得了显著提升。
四、主要贡献
- 提出了一种学习布局策略的方法,在无需依赖外部语言资源的情况下能够动态预测每个实例所具有的网络架构;
- 提出了一个全新的模块参数化方案(parameterization),其采用了对问题关键词进行软关注的方式,在无需硬编码具体单词分配的前提下实现了高效的语义表示。
