每日论文《Heterogeneous Graph Neural Networks for Extractive Document Summarization》
在提取性文档摘要中作为关键步骤的学习过程中,在研究跨句关系的方法已有所探索。其中一种直观的方法是将其放置于基于图的神经网络架构中,并通过其更复杂的结构来捕获句子间的深层联系。在本文工作中,我们开发了一种异构图神经网络架构用于摘要提取,在这种架构中不仅包含原始句子节点还设计了不同粒度级别的语义节点。这些额外的节点不仅充当句子之间的中介关系节点,并且丰富了跨句关联模型的能力。值得注意的是,在这种架构下不仅可以自然延伸至多文档场景还能灵活应对单篇文档的情况。据我们所知,在引入不同节点类型到图神经网络以实现全面文档摘要的同时进行定性分析研究方面处于领先地位
存在问题
请探讨一种有效方法以从文档中提取可总结之句,请问是否可行?在此背景下,请考虑交叉句子关系建模作为核心步骤。现有多数模型采用递归神经网络架构来捕捉句子间的相互依存性(Cheng和Lapata, 2016; Nallapati等人, 2017; Zhou等人, 2018)。然而,在长文本或复杂场景下运行此类基于RNN结构的摘要方法表现欠佳。通过图结构表示各句间的关联关系是一种直观且有效的方法。但构建适合摘要生成的有效图结构是一个复杂问题。已有研究尝试解决这一挑战:早期工作主要基于余弦相似度评估句间相关性并建立基础连接网络(Erkan和Radev, 2004; Mihalcea和Tarau, 2004)。近年来一些创新性工作开始关注语篇层面的关系建模(Yasunaga等人, 2017; Xu等人, 2019)。然而这些方法往往依赖外部工具支持,并面临错误传播问题难以解决。另一种思路是直接创建全连接式的句子级图结构,在某种程度上可视为最近工作中所采用Transformer编码器架构的应用(Vaswani等人, 2017; Zhong等人, 2019a; Liu和Lapata, 2019b)。尽管取得了一定成效但如何设计出真正有效的图结构仍待进一步探索。
方法
在本文中, 我们提出了一个用于提取摘要的新方法. 除了传统的基于词嵌入的方法之外, 我们还引入了基于注意力机制的知识表示方法. 此外, 在构建知识库的时候, 我们采用了层次化的方式将知识库划分为若干个子知识库.
为了简化起见,在本文中我们将词语作为语义单元使用
我们定义了一个曲线图G = (V, E),其中V代表节点集,在这个上下文中,V表示节点集合.我们的无向异构图可正式定义为V = Vw ∪ Vs和E = {eij},这里,Vw ={w₁,...,w_m}表示文档中的m个唯一词,Vs ={s₁,...,s_n}对应于文档中的n个句子.E是一个实值的边权重矩阵,e_ij ≠ 0(i ∈{1,...,m};j ∈{1,...,n})表示第j个句子包含第i个单词.
如图1所示, 我们的模型架构概述如下:主要由三部分构成:用于初始化节点与边的编码模块, 异构信息处理层以及全局子句选择器. 初始化过程首先生成并编码节点与边的信息, 然后将其转化为完整的文档图表示. 接着, 在整个异构图中采用基于注意力机制的设计框架 (Velickovic et al., 2017), 通过迭代消息传递的方式更新每个单词与句子级别的表示. 最后通过读取子句选择器对应的嵌入特征来推断摘要标签.
[

The GitHub Improved Visibility (CV) link for the specified repository is available at https://camo.githubusercontent.com/bc82fdc0...
The GitHub Improved Visibility (CV) link for the specified repository is available at https://camo.githubusercontent.com/bc82fdc0...
本文采用句子节点和单词节点构建图结构,并以它们之间的TF-IDF值作为连接权重;随后基于图注意力网络(GAT)进行训练
作者进一步优化GAT层以引入基于tf-idf的标量边权重eij,并将其投影至多维嵌入空间。这一改动等价于对注意力机制进行了如下调整:在计算注意力分数时引入加权项,并结合缩放因子以平衡各维度信息的影响。
分别对词节点和句子节点进行迭代:
[

该算法基于改进型KMP字符串匹配算法的设计理念展开研究与实现。
为了提升整体性能目标,在本研究中主要针对以下几方面进行了深入探索:
其一为特征提取过程的优化;其二为数据预处理环节的改进;其三则聚焦于异常检测机制的完善。
经过一系列实验测试分析表明:本算法在保证准确率的同时显著提升了运行效率。
采用基于三元块的解码方法。这种方法是最大边际相关性的这一变体(Carbonell及Goldstein, 1998)。具体而言,在排序阶段中计算每个句子的分数,并按照分数对句子进行排序;在筛选阶段中排除与前一代短语组重叠的部分。
多文档的总结摘要,只要加入文档节点即可。
[

GitHub Copilot标记...用于展示代码块或其他内容来源信息的附加标记
总结
问题:在文档摘要提取任务中,传统模型很难建模文档中句子间的关系。
方法:为每个单词创建相应的节点,并构建每个句子对应的句子节点。每个词与它所在的句子关联起来,并赋予每条边基于TF-IDF计算出的权重。通过图注意力网络(GAT)迭代优化各单词及其所在句子的信息表示,在此过程中逐步更新各独立句件的信息表示。最终利用各独立句件的信息生成摘要句。
灵感:基于节点和句子的图构建框架,并在使用tf-idf等技术手段的基础上,在之前的gcn模型用于文本分类的基础上进一步优化……很可能能够迁移至多个应用场景。
