论文笔记:X-Linear Attention Networks for Image Captioning
创新点:
我们提出了一种新型的注意力机制——X-线性注意模块,在该机制下实现了对视觉信息的有效选择以及多模态推理能力的整合。
在技术层面而言,在X线性注意力机制中同时结合了空间维度与信道维度的双线性注意力机制能够有效地捕捉输入单模态或多模态数据间的二阶交互特性
当回顾传统注意力机制时

传统的注意力机制与我们的X线性注意力块用于图像字幕的比较。
(a)传统注意力机制利用元素线性融合查询(Q)与密钥(K),并计算每个位置对应的空间位置 notice weights, 这些 notice weights 反映了 query 与 key 之间的一阶交互。
(b)X线性注意力块主要通过双线性 pool 来捕捉两阶特征间的相互作用,在空间维度上关注注意力分布,并在通道维度上聚焦于特征间的相互作用;这两个不同的 notice weights 分别用于聚合双线性 pool 在 query 向量与 value 向量上的增强信息。
回顾一下,我们所提出的X线性注意力块是一种统一的关注机制,在图像编码器与句子解码器之间实现了对深层特征及其相互作用关系的独特建模。通过这种机制,在深入分析内部及跨层之间的复杂关联关系的基础上实现图像字幕的可能性得到了验证。随后我们将阐述我们所设计的X线性注意力网络(X-LAN),它实现了将这些模块整合到编码解码架构中的方法,请参考图3的具体说明。

图3展示了用于图像字幕的X线性注意力网络(X-LAN)的概述。首先采用更快捷的R-CNN模型来检测一组图像区域。随后,在图像编码器中使用多层X线性注意块堆叠来对区域级特征进行编码,并促进各区域级特征之间的更高阶模内交互作用。通过这一过程生成一组增强的区域级特征和图像级特征,并基于强化后的视觉特征求助于句子解码器中的多层X线性注意块来进行多模式推理过程。这一机制不仅增强了模型在理解视觉信息方面的性能能力,并促使我们深入探索视觉内容与自然语言之间的高阶模态交互机制,并致力于提升句子生成的效果

