Advertisement

论文笔记:Knowing When to Look:Adaptive Attention via A Visual Sentinel for Image Captioning

阅读量:

本文首先主张,在自然语言处理领域中对非视觉词汇(如the、of等)进行提取时,并不需要依赖于显式的视觉数据支持;然而这些词汇的存在却会对整体视觉效果的质量产生一定的影响;为此,在本文中引入了一个调节参数以平衡视图注意力与历史注意力的比例;在此基础上作者提出了一种基于历史上下文的信息 sentinel;这种设计不仅能够反映生成文本的历史背景;而且这种 sentinel的作用机制也相当于从时间维度上决定观察焦点的时间窗口及其大小;此外在空间注意力机制方面也进行了优化

首先, 作者提出了一种优化的spatial attention模型, 并通过以下图展示了其性能对比. 前者属于传统注意力机制, 并由...构成或基于...设计而来.

决定要看的图片信息,而这篇文章则决定由

涉及查看的信息,作者指出这有助于减少隐含层对下一个词预测的不确定性。此外,该方法与传统模型没有显著差异。

下面将阐述本文的核心创新。作者主张,在处理非视觉词时应依据generator的历史信息来指导其生成机制而非直接依赖于视觉信息。因此,在这种特定场景下为了保证生成质量需要对视觉相关信息进行适当的限制。为此,在此部分我们引入了 visual sentinel 机制。具体实现方式如图所示。

和前面改进的空间模型相比,就是多了一个

信息,而它的生成结构其实和

是一致的,所以它所蕴含的就是generator已经生成的文本信息。

引入到attention以后,attention生成的新context向量

如下,引入一个新的参数

,将原有的context向量

进行加权。当

当取值为1时,则该time step内的文本生成仅依赖于之前已生成的文本信息;而当取值为0时,则仅依赖于视觉信息。这种机制与上文的空间注意力机制具有相似性。因此,在时间步长t处即可判断是否需要关注视觉信息,并可观察其覆盖范围有多大。

后文继续介绍了

的生成。在改进过的空间模型中,

的建立公式如下,

在这儿,通过

来扩充

一个维度,来代表

的相对权重,操作如下,

此时取

参考文献

Lu J, Xiong C, Parikh D, et al. Recognizing When Observing: Adaptive Focus via a Visual Guide for Image Captioning[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2017:3242-3250.

全部评论 (0)

还没有任何评论哟~