多标签文本分类数据集_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...
原文:
The Label-Specific Document Representation for Multi-Label Text Classification, presented at EMNLP 2019.
多标签文本分类
摘要:
本文使用标签相关的注意力网络学习文档表示。
该方法在生成文档表示时利用标签的语义信息来确定标签与文档之间的语义关联。
并且,根据文档内容信息,使用了自注意力机制识别标签特定的文档表示。
通过融合机制将这两部分进行了整合,并采用了自适应融合机制以实现对全面文档表示的支持
1 Introduction:
类似基于CNN、RNN以及注意力机制等先进算法的方法已经在...的基础上取得了良好的效果。然而,在现有研究中...大部分现有方法仅聚焦于文档本身而未考虑标签信息。
近期的一些工作通过深入研究标签结构或详细分析标签内容来识别标签间的关联性。然而这些方法在面对高度不同的标签文本时仍显不足
比如Management vs Management moves,就很难区分。
2 Label-Specific Attention Network model (LSAN)
模型由两部分组成。其中一部分主要通过整合文档内容与标签文本的信息,在每个文档中提取与标签相关的内容;另一部分旨在自适应地从两个维度提取关键信息。最后构建了一个融合了标签特性的统一表示模型。

2.1 Input Text Representation:
通过采用Bidirectional LSTM模型来提取文档中的双向语义特征,并进而能够实现每个输入文档的词嵌入学习。
在第p个时间步,隐藏状态可以被更新。

是第p个词的embedding vector, 是其相应的forward或backward word representation. 因此, 整个文档可以被表示为:
__

2.2 Label-Specific Attention Network
这一部分致力于获取每个文档与其相关标签的信息,并借鉴了现有的文本分类技术。
例子:
On June 1st(assuming it was a Friday), a fight broke out among the young football enthusiasts on the lawn during that day.
该内容归类于youth和sports类别。涵盖的内容主要是关于年轻男孩而非足球比赛。而足球比赛则直接关联于体育领域。
2.2.1 Self-attention Mechanism
每篇文档中的每一个单词对每个标签的影响程度不同。为了捕捉文档与每个标签之间的相关性关系,在本文中采用了自注意力机制模型。

是自注意力参数。代表着所有词对第j个标签的贡献度。
接下来,可以获取文本单词对每一个标签的加权和:

是输入文档结合第j个标签的表示。就是标签特定的文档表示,
2.2.2 Label-Attention Mechanism
自注意力机制可被视为基于内容的内容导向注意力机制,在这种情况下仅关注到文档中的内容信息。
然而,在文本分类任务中,标签项具有独特的语义意义。为了提取这些标签中的语义信息,请问您是想将它们如何应用?这些经过预处理并表示成一个可训练化的矩阵,在同一个潜在的空间中进行分析。

一旦获得Bi-LSTM模型输出所生成的word-level embeddings,并结合给定标签集C的信息,则能够明确地分析每对单词及其对应的标签之间的语义关联。通过计算这些关系的具体数值表达方式为:其数值等于词表示与标签表示之间的点乘积。

以上两者分别是词和标签正面、负面以及双向的语义联系。与自注意力机制类似,在这种情况下可以通过对应的标签词进行线性组合生成相应的文档表示

最后,文档可以被重表示:

这一部分的表示是基于标签文本,所以我们将其命名为标签注意力机制。
2.3 Adaptive Attention Fusion Strategy
为了整合以上两种机制,在本节中,我们采用了注意力融合机制。通过自适应的方式从这两者中提取关键信息,并构建了一个更加全面的知识表示模型。
具体而言,在计算以上两部分文档表示的重要性时, 两个权重向量被用来求取其影响大小, 这一过程将通过一个全连接层来完成

这两个W分别代表自注意力机制与标签注意力机制各自的权重(注:这里的权重是指它们在不同标签之间的分配强度)。因此,在这两个权重上施加约束条件:

得到最终的文档表示:

2.4 Label Prediction
从获得最终文档表示的过程来看,在使用包含两个全连接层的多层感知机之后,我们可以构建一个多标签文本分类器。每个标签对应的预测概率可以通过以下公式计算得出:

Sigmoid输出的值可以看作概率,所以我们最后使用交叉熵损失。

N是训练集文档数目,是标签数量,是零一变量,代表文档是否有标签。
3 Experiments
Datasets:

不同数据集的标签数量L有多有少。
Baseline Models:
若干典型的多标签分类方法:XML-CNN模型(Liu等,2017年),SGM(Yang等، 2018年),DXML(Zhang等, 2018年)。
在本文中所讨论的AttentionXML架构(You et al., 2018)可被视为一种特殊情况,在这种情况下模型仅局限于处理基于文本的内容而忽略了标签语义的相关信息。
EXAM: (Du et al., 2018) 与本文模型最接近的工作,但是本文模型处理的更好。
3.2 Comparison Results and Discussion

XML-CNN的效果最差,原因是其没有考虑到标签相关性。
在RCV1和Kanshan-Cup数据集上,AttentionXML的表现优于EXAM。由于这两个数据集都具有层次标签结构,在这种情况下,当父标签与子标签可能包含相同的内容时,这使得区分变得更加困难。
在EUR-Lex数据集中, AttentionXML表现最为欠佳;主要原因在于其主要局限于文档内容方面的信息获取;而EXAM和LSAN则得益于标签文本信息的提取与应用,在此过程中展现出更为优异的效果.
3.3 Comparison on Sparse Data
为了检验本文方法LSAN针对低频标签的效果, 按照频率将EUR-Lex分成三个组

三个方法在三个组上的效果:

特别是在低频标签上,本文提出的方法获得了更大的提升。
3.4 Ablation Test
文本提出的LSAN方法可以看作是三个组成部分的整合:自注意力模块(A),标签注意力模块(L)和融合注意力模块(W)。

自注意力模块A用于提取有用的文档内容, 标签注意力机制L通过应用标签文本信息明确地捕捉到了文档与标签之间的语义关联. 然而, 在某些情况下(例如Management与Management movies), 某些标签可能不容易被区分开来; 因此, 在这种情况下结合两种方法也是必要的.
注意力权重展示:
为了更深入地展示融合注意力机制的重要性,在两个数据集上展示了自注意力与标签注意力的权重分布情况。其中EUR-Lex数据呈现较为稀疏的特点,而AAPD则较为密集。

如我们所料,在一个数据集中存在大量重复项的情况下(即在一种称为"稀疏"的数据集中),标签注意力机制的表现明显优于自注意力机制。对于非稀疏的情况而言(即在一个每个类别下都有充足实例的数据集中),每个标签都拥有足够的上下文信息以支持有效的自注意力计算。
可视化:
深入研究标签注意力机制的表现。Computer Vision和Neural and Evolutionary Computing属于该例子的两个领域,在文本中每个领域都对应着特定的单词。

启发:
注意力机制可用于实现自适应性学习过程中的动态权重分配。然而仅当两部分均具备良好的性能时才能获得显著的效果提升。
