Advertisement

Stacked Attention Networks for Image Question Answering

阅读量:

该文章提出了SAN这一模型,并将其应用于图像处理领域。该文通过建立SAN模型实现了对VQA任务的支持。随后对该方法进行了多组实验,并在其上评估了 SAN 模型的表现。此外本文详细地探讨了 SAN 各层次输出特征,并论证了反复调用 SAN 可以有效地识别图形中的相关元素。
model framework:

这里写图片描述

本模型包含三个主要组件:Image Module、Question Module和Stacked Attention Networks。Image Module方面,我们采用了基于VGGNet的技术进行图像特征提取,在此过程中关键特征来源于模型末尾的池化层(last pooling layer)。具体而言,在输入图像经过预处理后被统一大小至512 \times 692像素(此处应根据实际尺寸调整),随后经VGGNet处理后生成512 \times 14 \times 14的feature map。该feature map对应于将原始图像划分为16\times9个区域的基础上放大得到的结果(此处需根据具体划分策略进行相应修改)。至于Question Module,则采用了LSTM或CNN架构来获取文本表征。

这里写图片描述
这里写图片描述

Stacked Attention Networks 通过迭代过程实现图像区域的注意力机制。具体而言,在每一轮中首先基于图像特性和文本信息生成一个特征注意力分布,在该分布的基础上计算出各个区域对应的权重Vi,并将Vi与Vq相加得到一个精炼查询向量。通过反复迭代该过程最终聚焦于问题相关区域。SAN模型在实际应用中面临着以下四类典型错误:第一类错误在于定位到错误的区域位置;第二类错误则为定位正确但预测答案不准确;第三类答案模棱两可但与真实答案相符;第四类则为图像标签不正确。GitHub地址:https://github.com/zcyang/imageqa-san

全部评论 (0)

还没有任何评论哟~