DART: Open-Domain Structured Data Record to Text Generation
发布时间
阅读量:
阅读量
动机:
- 数据转文本这一领域仍面临着诸多挑战:首先,在这一过程中采用了基于扁平化架构的数据底层架构模型。这种架构虽然有助于简化单个实例的数据组织形式(如属性-值对或表格形式),但无法充分刻画复杂对象间的关系网络(表),这使得通过整合这些语义知识来优化实体间的关系网络表示成为一项重要课题。
- 其次,在实际应用中往往只有一小部分领域的特定问题被聚焦于现有的知识库中,并且这些系统通常仅提供有限数量的概念描述符(谓词)及其与实体间的关联信息(数据本体)。此外,在处理过程中往往只能进行模糊地匹配输入与目标表达之间的关联。
以解决这些问题为目标
贡献:
- 我们构建了一个涵盖广泛领域的大规模公开域数据集,并将其以层次化的树状结构表示出来;这种独特的输入方式区别于现有语料。
- 我们对当前最先进的情感分析模型进行了系统性评估;这证实了DART框架引入了新的泛化挑战。
- 我们通过实验验证:采用基于DART的数据增强方法能显著提升WebNLG 2017公开可用数据集上现有模型的表现;基于其广泛适用性特点;我们相信这一成果将具有潜在的应用价值并推广至其他公开域语料。
数据采集:

基于三种来源构建了一个名为 DART 的知识图谱框架:其主要包含三个构建模块:第一模块基于 WikiSQL 和 WikiTableQuestions 两个问答数据集对维基百科表进行人工标注;第二模块将 WikiSQL 中的问题自动转译为陈述句;第三模块则通过整合现有的数据源包括 WebNLG 2017 和 English-to-English End-to-End 模型来完成知识图谱的构建过程。在整合来自多个数据源的 htriple 集合与句子配对后,在实现谓词标准化处理的同时,并验证了 DART 在涵盖广泛主题方面的优势。
树本体与表的句子标注
人类注释程序概述。顶部面板:从内部注释器获取列之间的上下层关系(黄色表示上层关系, 绿色表示下层关系)。然后获取以橙色标注的细胞表面功能。中间面板: 基于提供的上下层关系, 在列中构建层级结构;识别高亮单元对应的节点。通过收集所有指向这些高亮单元的最底层共同祖先节点来生成一个连通的部分。底部面板: 从这个子树中提取一组关键点(如图所示)。这些关键点与提供的功能配对起来, 建立实例关联。

在第一阶段, 经过专业培训的专业注释员将每个列标题与相应的父级字段相关联, 并按树状结构组织各字段间的关联关系。在第二阶段, 不同类型的注释器能够识别并突出显示关键数据项, 这些数据项会根据预先建立的知识框架自动填充相关信息。
全部评论 (0)
还没有任何评论哟~
