Advertisement

论文阅读 【Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering】

阅读量:

Motivation:

图像注释任务对整个场景进行描述,而不是关心特定的部分,其缺少人机交互过程。因此本文基于MS COCO构建了一个VQA数据集FM-IQA dataset,并提出了一个新的模型。

一.数据收集

1. 提问者对MS COCO数据集提问,并给出回答。

2. 质量监测。从MSCOCO数据集随机采样了1000幅图像作为质量监控数据集,作为注释器的初始集(他们不知道这是一个测试)。(1)在注释者标记完之后对标记质量进行打分,只选择一些高分的注释者进行注释。(2)也会选择一些提有趣问题的注释者。

3.共158392图像和316193问答对(中英都有)

注:有意思的问题即需要推理的问题。如,为什么这辆公交停在这里?从图上的两人拿着工具,根据常识从而推断公交出故障了。

二.模型

权值共享的LSTM

三.实验

  1. 如果是单个单词,用 Wu-Palmer similarity measure (WUPS) 评判;对于句子可用类似于图像注释的 BLEU score, METEOR, CIDEr。但是这些方法不能突出关键词的重要性,因此本文使用人工的图灵测试方法。即,人工判断该答案是计算机给的还是人给的。
  2. 人工评估时还会给答案打分,完全正确2分,完全错误0分,部分正确1分。

全部评论 (0)

还没有任何评论哟~