【推荐算法论文阅读】Hashtag Recommendation Using Attention-Based Convolutional Neural Network
一、背景
在微博平台上的用户通过有限的文字信息来记录日常生活并传递情感状态。由此可知,在舆情监测、市场预测等领域中,“微博”发挥着重要作用。该系统内采用了特定的标签标记机制(metadata tagging system, Hashtag)。在系统内部环境中,“Hashtag”被定义为关键词或话题标识符,并具有多方面的应用实例包括微博检索(microblog retrieval)、查询扩展(query expansion)以及情感分析(sentiment analysis)等技术支撑。
然而仅限于少数用户会选择在微博上添加 hashtags。因此自动推荐hashtags的任务便成为一项至关重要的研究课题,在近年来的研究中也得到了广泛关注。为了应对这一挑战 研究人员采用了多种特征指标 包括协同过滤技术 生成式模型以及深度神经网络等技术手段。
大多数方法主要依据词汇级别的特征进行设计,例如常见的Bag of Words(BoW)模型等。实证研究表明,在这种架构下,word-level triggers表现出显著的效果。这表明,在一个给定的句子中,其核心信息可通过其中的关键词语得以体现。
二、亮点
为了使用trigger word机制,本文提出了一种新型的基于注意力机制的卷积神经网络架构,在这一架构中融合了局部和全局注意力通道
在全局通道中,在信息处理时会涵盖所有输入词;而在局部注意力机制中,则仅对几个关键词进行识别并受gate score值的影响而定
三、模型具体结构

1. 局部注意通道
在第i步中,会计算第i个词在文本上下文中其重要性;其中window size设定为5。

并设定一个阈值标准,在超过该标准的关键词汇将被视为触发词(trigger words)。通过局部注意力机制,在微博文本中识别出关键词汇变得可行。在后续分析过程中仅纳入这些关键词汇的影响。


接下来引入一个嵌套结构,其主要目的即在于识别触发词所对应的特征.其中变量z仍属于word embedding这一维度.

2. 全局通道
在全局通道中所获取的则是整个文本片段的整体特征表现形式,在数学空间上我们将其定义为z。这个变量z是通过将l个独立提取出来的单词级别的word embedding进行一次卷积运算而得到的结果:


通过采用不同尺寸的滤波器,在模型中实现多维度特征提取。本研究设定window size为1、2、3,并针对每个window size设置对应的... feature map数量为100。
通过池化操作能够为每个特征映射提取出最重要的特征信息的同时能够处理长度不同的微博内容
3. 分类层
通过融合局部和全局注意力机制后,我们采用多特征映射卷积模块来整合局部与全局注意力输出

最后是分类器:

基于神经网络模型计算出的分数值,系统可以通过自动化流程对每条微博的所有标签进行排序,并将筛选出的重要标签发送至用户的端口。
参考资料:
- 主要依赖于卷积神经网络和注意力机制的标签预测(IJCAI 2016)
- 论文笔记:采用双层注意力机制进行哈希标签推荐针对多模态微博的研究(博客文章)
