Advertisement

Effective Neural Topic Modeling with Embedding Clustering Regularization

阅读量:

x博推的,主题模型相关
来源:arXiv2023

摘要

该研究面临主题重合(主题在语义维度发生重合)的问题,在此情况下容易导致主题间的重复性较高以及主题发现不够全面的现象出现,并进而降低了模型整体的可解释性水平。
研究者:
针对上述挑战,在现有研究基础上提出了一种改进型的扩展共词矩阵(ECRTM)模型。
通过同时维持重构误差水平的同时,在嵌入空间中引入新的正则化项(即ECR),将每个topic视为聚类中心进行建模学习过程,并以此缓解了原始共词矩阵模型中容易出现的主题重合现象。

引言

topic models分类

  1. 有概率图模型或矩阵分解的传统该主题模型
  2. 神经主题模型

主题崩塌

发掘的主题在语义层级会互相崩塌

在这里插入图片描述

如上表,相互崩塌的主题有很多无信息/重复的单词,这会导致:

  1. 主题崩溃导致大量高度重复的主题, 不利于下游任务.
  2. 主题崩塌使得主题挖掘效果欠佳. 许多潜在主题因未被公开(undisclosed)而无法充分挖掘出其关联性.
  3. 妥善管理与技术创新的结合, 能够有效提升运营效率.
  4. 但仅凭简单的数据收集与分析难以实现精准预测.
  5. 在实际应用中, 我们面临诸多技术挑战.

如图,前三个都主题崩塌了(潜在语义空间坍塌–发现的主题包含相似的词语–主题崩塌):

在这里插入图片描述

ECR

该方法通过以topic为中心点进行约束设计,在实现聚类过程的同时实现了分类目标

As such, ECR regulates every topic's embedding to serve as the central point of a separately formed word embedding group.

因此ECR要求每一个主题在嵌入空间中都是独立聚合的核心词(未完全理解)。这一机制确保各个主题相互分离,并全面涵盖词语的不同语义维度。

相关工作

传统主题模型

基于概率图形模型构建文档生成机制,并将其作为潜在主题变量的支撑框架展开研究。
采用Gibbs 采样与变分推理等技术估计隐含于数据中的模型参数。
另有研究表明通过矩阵分解技术对主题进行建模

神经主题模型

可以利用梯度反向传播来增强模型的灵活性和扩展性。
尽管可以直接基于预训练词嵌入或句子嵌入进行聚类以生成主题;然而这些方法本质上不是主题模型;因为它们无法根据具体需求推断文档的主题分布。
NSTM (Zhao et al., 2021b) 和 WeTe (Wang et al., 2022) 使用最佳传输距离来衡量重建误差;然而这些方法仍然存在不足。

方法

导致主题崩塌的原因

sota模型使用两个参数来表示主题词分布

在这里插入图片描述

W代表每个V单词的向量嵌入。T为各个主题对应的K维向量表示 可以通过预训练模型获取每个词向量,有助于提升模型的学习效果。

作者指出SOTA(超参数自动优化技术)模型崩溃的主要原因在于重构误差的存在。
这些模型通过最小化主题分布θ与单词分布x之间的误差来进行主题与词的嵌入学习。

As an illustration, to assess reconstruction error, the ETM method (Dieng et al., 2020) employs the traditional expected log-likelihood as its evaluation metric. In contrast, more recent approaches such as NSTM (Zhao et al., 2021b) and WeTe (Wang et al., 2022) utilize the optimal conditional transport distance as their assessment criterion.

通常情况下,在文档中存在少量高频词而大部分为低频词。鉴于此,重构主要聚焦于高频词的重构而忽略了测量误差(我的理解是说这种重构过于简单)。这会导致大多数主题与高频词汇之间的嵌入趋近于相似进而发生崩溃现象。由于主题词分布非常相似因此所提取出来的关键词也会变得冗余最终导致结果质量下降这就是所谓的崩溃现象。为了论证这一现象的影响我们进行了去除了所有高频词汇后的论证实验以验证其对整体结果的影响程度。

嵌入正则化的设计

从本质上讲,topic充当着聚类中心的角色,在此基础上运用正则化方法使词聚集在topic周围。

联合优化

在进行主题与词嵌入的联合优化时,也需注意符合神经主题模型的目标。传统的聚类方法(如k-means和高斯混合模型),借助预训练词嵌入进行聚类以生成空间表示(我认为这更像是将维度作为表示)。这种方法并非传统的主题模型;它能够自动生成潜在的主题空间但无法有效捕捉文档内的语义分布。本文未采用DEC等类似的神经网络架构;作者的观点是这种模型无法同时优化于神经主题网络的目标。(我对‘神经题目网络的建模目标’的具体含义仍存疑)

生成稀疏的软分配

(软分配为啥要稀疏?)
这块用的是聚类的正则化,生成稀疏的软分配。即使考虑到联合优化,现有的聚类方法也有可能导致主题崩塌。
作者说用了一个sota叫Deep KMeans(DKM,2020)(这玩意听着好像还挺牛,瑕下次看看能不能吧kmean换了提点)
DKM的目标是最小化 由软分配当权重的 中心和样本之间的欧几里得距离。
本文用来DKM:

在这里插入图片描述

公式很面熟。

在这里插入图片描述

单用DKM会表现出a这种特性, 因此为了确保更好的效果, 需要引入约束条件.
方法旨在将每个词仅分配到单一主题, 从而避免词汇被多个主题同时涵盖的情况.

约束集群size

提出了DKM+Entropy,即最小化软分配的熵。

在这里插入图片描述

研究结果表明,某些topic确实被独立地聚类形成,然而却有大量 topic 的簇是空的.这些空的簇无法区分,涉及不同的语义领域,最终导致系统崩溃.因此提出了一个约束条件:每个簇不能为空.这种约束条件可以通过引入正则化方法来实现.

嵌入聚类正则化

提出了ECR,一种嵌入聚类正则化的方法。

在这里插入图片描述

预设集群大小的约束

nk对应于主题tk的聚类规模,则该群体中所占的比例sk = nk / V(其中V代表词嵌入的空间维度)。在主题词分布上施加对称迪利克雷先验能够使LDA模型获得较好的效果。采用nk = V/K以及s = 1/K的方式设定先验参数。

ECR

定义了两个衡量标准

在这里插入图片描述

w是word,t是topic,δx表示x上的狄拉克单位质量
则y和φ的最优运输为:

在这里插入图片描述

第一项为原始的经典的运输问题,
第二项是entropic regularization。
该数学表达式旨在确定最优运输方案。

在这里插入图片描述

以实现传输权重总成本的最小化为目标,在研究中我们采用了欧几里得距离计算两个向量之间的传输成本

在这里插入图片描述

建模为wj 到 tk 的软分配是两者之间的传输权重
ECR目标为

在这里插入图片描述

调节超参ε,即可获得较好的聚类结果

嵌入聚类正则化主题模型

全部评论 (0)

还没有任何评论哟~