Advertisement

《Categorizing and Inferring the Relationship between the Text and Image of Twitter Posts》

阅读量:

文章介绍

本周重点研读了《Categorizing and Inferring the Relationship between the Text and Image of Twitter Posts》这篇论文,并在ACL 2019会议上进行了oral presentation。具体而言,本文主要贡献体现在以下几个方面:
(1)通过层次化注意力机制提取关键词间的相互作用关系;
(2)设计了一种多模态自监督学习框架;
(3)实现了文本与图像间的高效关联推导过程;
(4)验证了该方法的有效性和优越性。

通过调用推特提供的API接口成功提取了约5,000条包含丰富图文内容的数据样本,并系统性地汇总了相关的人口统计数据信息。

对所涉数据实施了标注处理,并根据属性划分出以下四种类型:存在能体现图片特征的文字描述;缺乏与图片对应的语义信息;通过图像能够进一步丰富信息内涵;未能提供额外的信息支持;这些分类最终形成一个基于属性划分的多类别识别模型

  1. 基于该数据集, 采用多样化的数据与方法开展实验研究。
  2. 数据集可访问链接:https://github.com/danielpreotiuc/text-image-relationship/

作者将这一研究目标划分为两个子项目:第一个项目专注于分析文本与图像之间的语义关联;第二个项目则聚焦于探究图像在推特语义框架中的角色与作用。


方法介绍:

实验时主要使用了以下数据:

  1. 用户的人口统计数据(包括个人性别信息、年龄分布情况以及受教育水平等变量);
  2. 推特元数据指标(涉及用户活跃度的多个具体维度:包括每次登录次数、点赞及转发数量等指标;其中关注者数量指标是核心考量因素之一,并结合粉丝互动频率进行综合评估);
  3. 主要基于文本内容的分析;
  4. 主要基于图片信息的分析;
  5. 主要基于文本内容与图片信息的综合分析

在应用前两类数据时,默认情况下主要采用经典的机器学习算法体系中的基础模型,并基于这些模型执行了基本的逻辑回归分析;两者的显著差异则体现在所使用的训练数据类型上。

在使用基于文本的数据时,使用了三种方法:

  1. 浅层特征:我们收集了包含标点符号、@标签以及引用元素在内的各种标记信息的数量作为特征指标,并运用逻辑回归方法进行建模分析。
  2. 词袋模型:基于词袋模型的方法,在本研究中我们分别采用了单克尔和双克尔的表示方式进行逻辑回归建模。
  3. LSTM模型:针对序列数据的时间依赖性问题,在本研究中我们采用了长短期记忆网络架构来进行数据预测。具体而言,在输入层部分我们将每条样本数据映射为200维的连续向量表示(这些向量是在预先训练好的大规模推特语料库基础上提取得到的)。随后在隐含层结构中设置了一个包含64个神经元单元和 dropout比例为0.4的全连接层结构以防止过拟合现象的发生。最后通过Adam优化算法最小化交叉熵损失函数来实现对目标变量的概率预测。

在使用基于图像的数据时,主要是基于google的inceptionnet进行试验:

  1. 基于预训练好的Imagenet模型, 提取特征向量, 然后将这些特征向量输入至逻辑回归分类器中, 并仅优化逻辑回归层权重
  2. 构建完整的端到端模型, 首先引入预训练好的InceptionNet网络, 并添加全连接层用于最后的任务预测; 接着对整个InceptionNet结构进行微调优化

当处理包含文本与图像的数据时,在采用了集成学习等其他方法进行处理的情况下,则表现出最佳性能。

  1. 集成学习:采用集成学习的方式将基于文本的信息以及图像的结果进行整合。
  2. 将两种模式的信息结合起来的一个简单方法是构建一个集成分类器。
  3. 这一过程是通过一个具有两个特性逻辑回归模型实现的单词文本模型预测类概率与经过交叉验证优化后的InceptionNet模型预测类概率相结合的方式。
  4. 该模型的参数设置经过交叉验证优化,并且采用了类似单个模型分割的方法进行调整。
  5. LSTM-InceptionNet:将LSTM和InceptionNet网络最终输出连接在一起之后作为全连接层(包含一个具有64个神经元的隐层),并使用Adam优化算法进行训练。

结果介绍

通过查看下图可知此方法对于预测文本图像间的关系效果并不算好,在四分类问题中准确率为45%.

全部评论 (0)

还没有任何评论哟~