Topic Modeling in Embedding Spaces 论文阅读
Topic Modeling in Embedding Spaces 论文
- The Embedded TopicModel
Code for this work can be found at https:// github.com/adjidieng/ETM.
论文地址:https://arxiv.org/pdf/1907.04907.pdf
LDA是一个功能强大的模型,应用广泛。然而,它面临着一个普遍存在的技术问题,它在面对大量词汇时失败了。从业者必须严格删减他们的词汇表,也就是那些既有预测性又有可解释性的词汇模型。这通常是通过删除最常出现的单词来实现的。在大型收藏中,这种修剪可能会删除重要术语并限制模型的范围。大量词汇的主题建模问题在研究文献中尚未得到解决。
作为一个主题模型,它发现了文本的一个可解释的潜在语义结构;作为一个单词嵌入,它提供了一个低维的词义表示。它可以很好地容纳大量的词汇和语言数据的长尾。图1说明了这些优点。在这个主题的字数和字数之间的预测性的比率。(这种困惑已经被词汇表的大小标准化了)这是一个由20个新闻组和100个主题组成的11.2K篇文章的语料库。这条线是LDA,它的性能随着词汇量的增加而恶化,预测性能和主题质量变差。蓝线是ETM;即使词汇量变大,它仍然保持良好的性能。

与LDA类似,在生成概率模型中引入了新的视角:每个文档被视为主题混合物的不同实现方式;每个观察到的单词都被精确分配给特定的主题范畴。值得注意的是,在语言建模过程中,默认条件下术语间的前主题条件概率遵循对数线性形式,并涉及词汇的低维表示方法;每个术语由嵌入向量表征;每个主题则对应于嵌入空间中的一个点;主题在项上的分布与其对应的主题嵌入与项嵌入之间的指数级内积呈正比关系。图2和3分别来自《纽约时报》的300主题ETM主题图谱:图中清晰展示了各个主题的核心词汇及其关联性;这些主题主要涵盖宗教信仰和社会体育领域两大类别。与传统常见的主题建模方法不同的是,在基于单个点的主题表示框架下实施的研究表明:ETM模型对停用词的存在具有较强的鲁棒性特征;即使在词汇表中包含停用词的情况下(如图1至3所示),该模型仍能将相应的主题分配到嵌入空间中的相应区域(将在第6章进行具体演示)。然而就大多数常见的主题建模方法而言,在计算后验分布方面仍存在诸多技术障碍:我们通过变分推理推导出了一种新的近似后验概率计算科学算法(参考Jordan等人1999年的工作);并采用分批推理方法有效地近似计算了各主题的比例系数(参考Hoffman等人2013年的研究)以及Rezende等人2014年的创新工作)。该算法特别适用于处理具有庞大词汇表的大规模语料库数据集:其不仅可以结合预先指定的各种术语嵌入方法进行运行(如前所述),也可以与其他参数化策略相结合使用(特别是像图1至3那样利用预先获取跳转单词嵌入版本实现的具体应用)。我们对ETM模型与LDA以及多项式矩阵分解形式下的NVDM模型进行了性能对比实验:其中NVDM作为一种新型变分推断方法而被纳入比较范畴。经过评估指标验证可知:相对于单纯基于单个文档的概率预测性能而言(wallachetal. 2009),该方法在保留文档完成任务上的日志可能性方面表现出了显著优势;同时其生成的主题质量也得到了topiccoherence以及TopicDiversity两个量化指标的有效支持(参考Mimnoetal. 2011的相关研究)。此外值得注意的是,在大规模数据集处理能力方面表现尤为突出的就是该模型。
The Embedded TopicModel
ETM是一种主题模型,在其构建过程中采用了单词嵌入和主题嵌入来表示内容。该模型基于两个潜在维度构建了主题空间。首先,在这一过程中,词项被映射到L维空间中形成词项嵌入向量;这些词项嵌入在本质上类似于经典的词项向量表达方式。其次,在生成阶段,则通过将这些词项嵌入与K个潜在的主题向量进行结合来完成对文档的主题建模工作。与传统的主题建模方法不同,在ETM模型中每个主题不再局限于词汇表上的完整概率分布表达方式;而是对应于L维空间中的特定向量αk∈RL(令ρ为一个L×V的单词嵌入矩阵)。这种设计使得第k个主题能够更加灵活地反映语义信息特征;其中αk被视为一种特殊的语义表达形式

在步骤1中,LN(·)表示logit-normal distribution(Aitchison and Shen, 1980;Blei and Lafferty, 2007),它将标准高斯随机变量映射到单纯形上。由该分布生成的θd为

(这一项与传统主题模型存在差异,未采用Dirichlet分布家族,这主要是为了简化后续计算过程)
在步骤2b中,该方法基于词汇ρ的词向量以及预先指定的主题向量αzdn,从指定的主题中提取出观测到的词语,例如αzdn所示的位置上即为所提取的内容。
在步骤2b中,生成的主题分布与等式1所描述的CBOW模型具有相似之处。回想CBOW模型是如何构建上下文向量αdn的:它利用相邻词来捕捉语义关系。相反,ETM则通过主题嵌入αzdn来表示文本特征,其中主题zdn是从文档参数θd中抽取出来的信息集。与CBOW不同的是,ETM并非从文档内部随机选取词语,而是直接对整个文档语料库进行建模以获取相关词汇表征ρ.在实际应用中,这种表征矩阵ρ既可以基于已有预训练好的词向量进行使用,也可以将其整合到整体训练框架内进行联合学习操作.一旦将ETM融入整体训练流程中进行嵌入学习时,系统不仅能够识别出最优的主题分配方案,同时也能够优化词表征空间以达到更好的表示效果。
当ETM采用预先指定的嵌入表示时,在预定义的空间中提取文档的主题信息。这一策略特别适用于语料库中未知的新词汇。ETM能够推断这些未知词如何融入主题模型,即使它们从未出现在训练数据中。因为它能够计算参数ρ与α之间的关系。
边际可能性 ETM的参数包括嵌入量ρ1:V和主题嵌入量α1:K,“每个αK代表了一个主题向量,在这个向量空间中”。通过最大化边缘似然度来优化模型参数。

在每个文档中,计算边际似然是一个具有挑战性的任务。这涉及对主题比例分布求积分的过程,在公式2中使用未转换的比例δd来表示这一概念。

每个词的条件分布使主题分配zdn边缘化

此处, θdk代表用于转换主题比例的方法(如公式2所示). βkv则指传统意义上的"主题"概念,该概念基于单词嵌入ρ与主题嵌入αk之间的相互作用.

变分推理 我们用变分推断替代了难以处理的积分(Jordan et al.,1999;Blei et al.,2017)。该方法在等式4所示的边际似然对数上最大化每个文档内的边界之和。我们需要优化两组参数:模型参数以及与边际可能性逼近相关的变分参数。
假设一系列未转换的比例q(δd;wd, ν)的概率分布存在。我们采用变分推断,在这种情况下δd的概率分布依赖于文档wd以及共享的变分参数ν。具体而言,q(δd;wd, ν)遵循一个高斯分布,其均值与方差由ν所定义的一个被归一化后的"推理网络"(Kingma and Welling, 2014)计算得出。(为了处理不同长度文档的需求,我们将输入表示标准化为单词数量Nd)
我们利用这些变量分布来约束对数边际似然,证据下限(ELBO)则为模型参数与变分参数之间的函数。

基于变分参数框架下定义的第一个目标项旨在促进潜变量对观测到单词话题比例δd的学习;第二个目标项则旨在促进潜变量与先前分布p(δd)的一致性。基于模型参数设计的目标函数旨在最大化期望完全对数似然P_d - log p(δd, w_d | α, ρ)这一指标。我们从模型参数与变分参数两个层面展开对ELBO的最优化处理:首先采用随机优化方法并结合重参技巧实现全噪声半径Bytaking Monte Carlo近似;其次引入数据子抽样策略以高效处理海量文档资料;最后采用Adam优化器并结合学习率设定方案(Kingma与Ba, 2015)。具体算法流程可参考算法1描述:其中符号NN(x; ν)表示输入为x、参数为ν的人工神经网络函数。

