Advertisement

[事件知识图谱] EventKG: A Multilingual Event-Centric Temporal Knowledge Graph

阅读量:
ESWC 2018 EventKG: A Multilingual Event-Centric Temporal Knowledge Graph
Author Gottschalk, Simon,Demidova, Elena
paper https://arxiv.org/pdf/1804.04526.pdf
url http://eventkg.l3s.uni-hannover.de/

促进对网络、新闻以及社交媒体上当代与历史事件信息进行语义解析的重要方面在于构建包含事件及其时序关联的系统性知识库。
目前存在的知识库(如DBpedia、YAGO等),虽然在实体层面具有较为详尽的数据存储能力,在事件及其时间顺序关联方面的覆盖与完整性仍有待提升。
本文所提EventKG则是一种多语言的时间序列知识图谱系统。
特别地,在提取大规模时间和顺序关系数据方面取得显著进展。
这些关联数据源自多个大型知识库以及半结构化资源,并采用标准化的形式存储。

1 引言

动机:
基于当前及历史事件为中心的时序信息量,在主要网络平台和社会媒体平台上持续增长。有效获取和解析基于时序的大规模事件数据对于构建语义网、自然语言处理以及数字人文科学等领域具有重要意义。具体而言,在这一领域中使用的应用程序包括问答系统[14]以及时间轴生成系统[1]等工具。在数字人文领域中,则通过多语言事件数据库有助于跨文化研究机构分析特定语言社区及其对历史与当代事件的不同看法(此类研究的具体案例可见文献[11]、[18])。此外,在这一领域中构建的知识图谱不仅有助于恢复历史背景并揭示随时间演变的社会关系网络。

目前,在异构数据源中分布着事件表示及时间序列关系。

EventKG &先进技术:
本文介绍的EventKG迈出了重要的一步,以促进对当前分布在以实体为中心的知识图谱和人工策划的半结构化源之间的事件和时序关系的全局视图。 EventKG 以一种有效的轻量级方式提取并整合了这些知识 ,并用附加的特性来丰富它,例如关系强度和事件流行度的指示,添加出处信息,并通过规范表示使所有这些信息可用。 EventKG遵循数据发布的最佳实践,并重用现有的数据模型和词汇表(如Simple Event Model [23]和DBpedia本体),通过应用语义技术和开放标准(如RDF和SPARQL),促进其在实际应用中的高效重用。 EventKG当前包括五种语言的数据源-英语(en),德语(de),法语(fr),俄语(ru)和葡萄牙语(pt)-并且是可扩展的。 EventKG的主要贡献如下:

一个多语言RDF知识图谱在V1.1版本中收录了约70万个事件以及近230万条时序关系这些数据主要源自五个大型实体中心型知识图谱即Wikidata五种语言版本的DBpediaYAGO以及WCEP和Wikipedia五个语种下的事件列表在这些数据中我们将用于填充EventKG的数据源统称为参考源EventKG的主要功能包括:

  • 以事件为中心的信息资源(涵盖历史与当代事件)以及基于规范的标准化表示法
  • 对异构参考源中的事件实体及其关联关系进行轻量级整合与融合
  • 相较于单一来源其覆盖范围与完整性更为广泛(具体内容详见第五章)
  • 提供相互关联的信息框架以便评估关系强度及活动关注度
  • 所有信息均源自以上来源

基于开源架构设计的提取工具...用于支持EventKG最新版本的数据抽取与更新维护,并且能够实现多语言环境以及多种数据来源的集成与处理。

就我们所知,在目前尚未有专门的知识图谱能够有效地汇总与EventKG直接可比的历史及当代事件的相关中心信息及其时间顺序关系。

2 相关性

我们正面临着前所未有的事件数量挑战。这些不仅影响了各个领域还跨越了语言与文化边界。
该技术方案即EventKG旨在支持对源自不同来源且围绕中心主题多语言信息的有效访问,并能有效地进行歧义识别与深入分析。
从语义网络技术、自然语言处理以及数字人文等多个领域来看这一技术解决方案具有重要意义。
在现代语义Web框架下该系统具体应用场景涵盖基于问题导向的知识查询服务。
时间线生成过程则需要综合考量每个事件的关注度及其相互关联程度。
此外该系统作为一个多语言、多模态的知识存储平台能够有效降低数据提取整合与融合的技术门槛。
特别地它为跨文化与跨语言的信息分析提供了独特资源如[11][18]所述的例子所展示的一样。

与问答应用程序的相关性:
在问答领域(QA)[14]中,当前的研究重点主要集中在将自然语言形式的用户查询转换为规范化的查询表达式(如SPARQL查询语言),同时探索QA与语义搜索[24]、[4]之间的交互方式。当前研究则主要针对那些可以通过流行的知识图谱(如DBpedia)进行有效问答的问题。有了EventKG技术,则能够更有效地处理与事件相关的各种问题。例如,“1980年在华盛顿发生了哪些与比尔·克林顿有关的事件?”以及基于排名的问题,“在阿勒颇发生的与叙利亚内战相关的最重要事件是什么?”这些问题都能通过EventKG得到精准解答。

时间线的相关性:
时间线生成是一个热门研究领域[1],其核心任务是从知识图谱中为实体创建事件和时序关系的时间轴(即按照时间顺序进行选择)。EventKG能够构建包含来自多源补充信息的详细时间线 ,这有助于形成更加完整的时间轴和事件表示模式。例如,在表1中可以看到使用EventKG生成的时间轴上的一段摘录内容。具体而言,在表1中的第一个事件("Erwin Rommel arrives in Tripoli")源自英文维基百科的事件列表("1941 in Germany"),并未包含在用于填充知识图谱(Wikidata、DBpedia和YAGO)的原始数据来源中。其余三个事件则均来自其他补充信息来源。值得注意的是,在维基数据中虽然将"Action of 27 February 1941"指定为某一天开始日期,并声称与二战相关联;但这一记录实际上与二战无关联性问题存在争议。

在这里插入图片描述

跨文化以事件为中心分析中事件流行度和关系强度的评估:
受文化背景和语言环境影响而异的现象包括事件流行度及其与实体之间的关系强度。例如,请参考表2所示的数据,在俄语版和英语版维基百科中分别列出最受欢迎的4个事件及其链接频率统计。尽管两个语言版本都涵盖了全球性事件主题(如联合国 annihilate),但它们之间的主要区别在于:特定于某一种类的语言环境中(如俄语或英语),某些重要事件会根据其国家或文化背景而有所侧重地被提及[10]。通过计算它们在维基百科中的共同引用次数 ,我们可以量化特定实体与某一特定历史时期或国际事务之间的关联程度[11] - [12] 。例如,请参考表3所示的数据,在不同语言版本中围绕二战的核心人物有哪些研究记录?这些研究记录不仅反映了学术界对二战的不同解读角度(如从政治学、经济学或军事学视角出发),还揭示了国际社会对这一重大历史时刻的不同关注点及其所造成的深远影响[13] - [14] 。此外,请注意 EventKG 数据库中包含超过 2,816 个与二战相关的子事件节点以及 9,786 条相关联的时间轴条目(如图 4 所示)。这些数据为我们后续开展跨语言时间轴生成提供了丰富的素材来源,并为识别具有争议性的历史时刻奠定了基础[5] - [6] 。

在这里插入图片描述

支持在语义Web框架下开展研究的意义:
**EventKG严格遵循开放数据原则及W3C标准规范,在多个实际应用场景中展现出良好的适用性。**我们预期,在非语义Web领域工作的研究人员(包括自然语言处理与数字人文学者)将能通过采用W3C标准中的RDF、SPARQL及现有术语库等技术手段,在信息抽取、媒体分析及跨文化研究等多个方面获得显著收益。

3 EventKG数据模型

EventKG数据模型旨在通过整合来自参考源的不同实体间的关联信息及其时间顺序关联,并以此构建跨领域的知识网络结构 ,从而实现这些信息在实际应用中的有效利用。该模型由以下几个具体目标推动:构建跨领域的知识网络结构、提高语义相似性计算的能力、支持多模态信息之间的关联分析以及提升大规模数据环境下知识服务检索效率。

  • 采用规范化的表示方法来定义事件的关键属性。
  • 表征了不同主体间的时间顺序关联(涉及主体间的四种基本时序关系:主体间-主体间、主体间-主体外及主体外-主体间)。
  • 包含用于量化以及详细描述这些关联信息的内容。
  • 表征了不同时间点上发生的关联性问题(如基于时间序列的关联分析)。
  • 提供了对不同来源的时间关联数据进行高效整合的技术基础。
  • 明确数据来源与背景信息的相关性问题。

基于Simple Event Model(SEM)[23]构建了EventKG方案。该方案具备高度灵活性,并提供了基于事件的核心架构。在该方案中,在命名空间eventKG-s中引入了额外属性与类来详细描述提取信息,并用于建模时间与事件之间的相互关联及其来源信息。 EventKG系统的架构图见图1所示。 EventKG方案基于SEM框架,在其设计过程中使用了空心箭头表示rdfs:subClassOf关系,在常规箭头下定义了属性及其值域限制范围;对于那些属于原有词汇表中的术语,则采用了绿色字体进行标注;而系统特有的类与属性则被标记为橙色字体显示

在这里插入图片描述

事件和实体:
SEM支持一种通用的事件表示方案,该方案不仅包含事件的核心要素,如主题、地理位置及时间维度,还能够与参与方(即实体参与方)建立关联关系。这些资源通过特定命名空间进行标识,因此在EventKG模式中,关键类别作为sem:Core的子类得以实现,其中包含如sem:Event用于表示事件本身、sem:Place用于标记地点、以及sem:Actor用于描述参与方等核心实体类型。(需要注意的是,EventKG中的实体不仅限于参与方;两个实体之间还可能存在时间关系等复杂关联).具体而言,事件通常通过属性链接与位置相关联(如通过属性名属性值对属性值对属性值对属性值对属性值对属性值对属性值)。一个实例对象可以通过指定开始时间和结束时间戳来表示(如通过指定开始时间和结束时间戳来表示)。除了上述技术表达之外,EventKG还提供了丰富的元数据信息(如描述性数据)供用户提取与分析(如描述性数据)供用户提取与分析(如描述性数据)供用户提取与分析)。

时间关系:

在这里插入图片描述

间接时间信息的关系:
关系的时间有效性通常不明确,但可以通过参与者实体或事件的存在时间进行估计。例如,“母亲”关系的有效性可通过子实体的出生日期来确定。因此,在已知有效时间和存在时间的情况下,在EventKG中还包括与事件相关的关系以及与实体相关的关系。

其他事件和实体关系:
尽管在特定的时间框架内(如夏季奥运会、体育运动中的季节性事件或军事冲突中的作战行动)探讨各类相关联的子事件、上一时期及下一时期之间的相互作用显得尤为重要,在这些复杂的情境下建立子事件关系通常会采用so:hasSubEvent属性来进行建模。通过使用dbo:previousEventdbno:nexthEvent等属性可以有效地将一系列连续发生的事件相互关联起来。位置层次结构则主要通过so:containedInPlace这一属性来进行描述。

评估关系强度与事件流行度:
评估这些关联程度及其影响力可以帮助解答诸如"哪些实体在某场事件中扮演了核心角色?"这类问题或确定"哪类活动最为引人关注?"。在我们的模型设计中涉及了两个关键要素:

  1. Links :此因子衡量一个实体在其描述中引用其他实体的频率,在EventKG系统中该频率由特定字段来表示。
  2. MentionseventKG-s:mentions字段记录了同时提及关系主语和宾语的句子数量,在EventKG系统中该数值反映了关系提及的情况。

关于来源信息,
由EventKG提供的相关源信息包括:

4 EventKG生成

EventKG生成管道如图3所示。

在这里插入图片描述

首先,在数据来源中进行信息采集

步骤1a:事件的识别和提取

  • 在Wikidata系统中将所有被识别出的事件标识为"event"或"occurrence"类型的子类,并为了提升召回率而添加"occurrence"实例。
  • 在各个语言版本中将DBpedia中的所有DBpedia事物流向标识归类为dbo.Event及其直接或间接相关的子类。
  • 由于其众多噪声性子类别(如event→act→activity→protection→self-defense→martial art),我们决定不使用YAGO本体来进行事物流向识别工作;相反地,在步骤Ib中进行了事物流向识别工作。
  • 在每种语言中采用类似[13]的研究方法,在Wikipedia上提取了包含时间表达式的事实条目标题集

我们在DBpedia和Wikidata中进行了人工评估,在这一步骤中确定的事件的随机样本中包含了每个样本包含100个事件以及对应的语言版本,并且平均准确率达到98%。

步骤1b:通过引入额外的事件识别启发式方法来优化召回率。其次,在传播已识别事件信息时,我们主要依赖于现有owl:sameAs链接。此外,在确定KG条目类型时,我们主要参考了与手动定义相关的正则表达式匹配结果(例如,在英语维基百科中以‘events’结尾的类别)。为了确保评估结果的有效性,在英文和俄文维基百科相关的100个候选事件中进行了有代表性的选取,并对这些样本进行了详细的人工评估。最终的人工评估准确率分别为94%和88%。

在V1.1版本中未能清晰地区分单一事件、季节性活动以及系列活动(包括但不限于例如'Solar eclipse of August 10, 1915'、'2008 Emperor's Cup'和'Mario Marathon')。

事件和实体关系的提取:
我们识别了各类关系类型。具体包括:第一类是基于时间有效性信息来确定时间关联关系。时态关系主要来源于YAGO数据库和Wikidata资源,并非DBpedia提供此类信息。第二类是处理间接时间信息的情况。我们收集了所有与事件相关的实体及其已知发生时间的信息。第三类是处理其他类型的事件与实体关联情况。通过构建一个自定义映射表,在EventKG中识别事件相关联的谓词(如so:hasSubEventdbo:previousEventdbo:nextEvent等),并利用Wikipedia的数据链接机制获取实体间的位置层次结构信息。此外,在处理包含多个事件的关系时,我们还提取了实体间的量化关联强度及受欢迎程度数据,并仅在实际提取到相关联实体对时才完成这一过程。

集成:
在引用源中提取出的陈述被纳入了名称图中。每一个名称图都与一个引用源相关联。我们构建了一个名称图为eventKG-g:event_kg。这些实例整合了与等效实际对象相关的参考来源中的事件中心和实体中心的信息。对于来自知识库中的实例,“owl:sameAs”关系被建立。利用基于描述、时间和链接的规则方法整合了半结构化来源中的事件信息。

整合:
在整合过程中, 我们按照预设规则对eventKG-g:event kg事件的时间、空间和属性信息进行整合, 从而实现对事件的全面分析与管理。

  • 位置融合 :我们从各个来源收集了每个事件的位置数据,并通过so:containedInPlace关系将这些数据精简到最小(例如,在集合{巴黎, 法国, 里昂}的基础上简化为{巴黎, 里昂})。
  • 时间融合 :整合时遵循以下规则:
    (i) 如果有其他日期可用,则忽略开始或结束的时间单位(例如1月1日);
    (ii) 在来源中进行多数投票;
    (iii) 优先从可信来源获取时间戳:先检查Wikidata, 然后是DBpedia, 接着是Wikipedia, WCEP和YAGO。
  • 类型融合 :基于DBpedia本体的信息,并采用owl:sameAs关系进行连接。

在基于EventKG的数据模型框架下,在特定阶段对实例与关系进行抽取,并将其以RDF的形式进行表征(如第3节所述)。如前述分析,在独立的命名空间中呈现了从各个来源中抽取的信息,并通过整合步骤实现了信息的有效结合。

在基于EventKG的数据模型框架下,在特定阶段对实例与关系进行抽取,并将其以RDF的形式进行表征(如第3节所述)。如前述分析,在独立的命名空间中呈现了从各个来源中抽取的信息,并通过整合步骤实现了信息的有效结合。

5 EventKG特征

在EventKG V1.1版本中基于截止日期为2017年12月的数据来源我们抽取了五种语言下的事件表示与关系信息表4列出了发布于2018年3月且包含在EventKG V1.1中的统计数据总体而言该版本包含了约70万至80万的具体事件数据以及超过230万的时间关系数据其中约46.75%的事件来源于现有知识图谱而另一半则来自半结构化的资源每个命名空间中的数据质量直接反映了其来源的质量在eventKG-g:event kg命名空间内大多数事件(占比约为76.2%)均具备明确的时间标注此外约12%的位置信息也得到了体现这些位置覆盖范围未来可以通过引入NLP技术进一步扩展例如可以从事件描述中自动识别出位置信息除了上述提到的时间关系外EventKG V1.1还包含了实体与时间之间不存在对应关系的数据因此总的关系条目超过了880万其中约一半的数据反映了实体间的相互关联

在这里插入图片描述

5.1 EventKG与参考源的比较

我们对EventKG与其参考源进行了对比分析,以考察其在数量及表示完整性上的差异性表现。该 EventIa 识别流程的结果已在表 5 中详细列出。该 EventKG 所记录的 690,247 个事件数量显著超过了所有参考来源。这一现象主要得益于知识图谱(KGs)与半结构化数据源的有效整合。

如表6所示,我们发现通过整合以事件为中心的信息资源,EventKG展现出显著的优势:其一,在实例识别方面表现突出(例如,在EventKG中我们成功将322,669个实例映射至Wikidata数据库中;而原先仅在Wikidata中标识为事件的有266,198个),其二,在实例表示完整性方面优于现有知识图谱(即,在最完整的参考来源Wikidata数据库中占比最高)。从表7可以看出,在所有实例分类中,默认情况下与源代码相关的实例数量最多。

5.2 关系与融合统计

EventKG系统中的时间关系数量超过...条成为其核心功能之一。 EventKG的主要常用谓词包括"参与球队"、"指定继承"、"获得奖项"以及"职位保留"等类别数据均源自Wikidata数据库。 在YAGO知识图谱中占据主导地位的是主语为"参与球队"这一特定谓词,在该图谱中共计存在49万条相关记录。 除上述常见术语外,YAGO知识图谱中的其他主语形式术语出现频率相对较低。 统计数据显示,约有...的时间关系发生在二十世纪至二十一世纪初期间。 这些事件中有高达...%的数据源自多源获取机制的支持。 在整合阶段发现,在已知起始时间的事件中约有...%的数据与各来源记录的时间高度吻合。

在这里插入图片描述

5.3 文字说明

该系统整合了五种语言的数据。总体而言,在知识图谱(KGs)中提取出的数据共计约87.65%,仅附有英语标签;而仅有约4.49%的事件同时支持全部五种语言。从半结构化资料中提取出的数据共计367,578条事件,在这其中仅有一百一十五条(115)能够用全部五种语言进行描述;例如:1981年航天飞机首次发射这一事实就使用了全部五种语言进行描述。这一发现预示着未来我们有望进一步增强多语种事件描述的能力。

6 可重用性

为了提升EventKG的有效复用性, 我们已提供下载功能, 并支持SPARQL API接口访问. 官方主页发布详尽的技术文档, 包括示例查询功能. 请参见图1所示的内容, 其展示了完整的模式架构. 注释部分:"事件知识图谱基于RDF建模, 并具备强大的扩展能力." 举个例子来说, 可以引入更多语言支持并灵活配置参考数据源的选择路径. 最新研究表明, 数据集间的互连度已成为提高重用效率的关键因素[5]. 在此意义上, EventKG现提供与参考源间的广泛互连连接机会

当前,在创新型基于事件的应用程序开发背景下,EventKG旨在参与此类问答应用的研发工作,并与Alexandria(专注于以事件为中心的数据丰富Web档案)及WDAqua ITN等欧盟项目展开合作。我们坚信,在其独特性和普遍适用性的优势下,未来将被多个第三方社区广泛地纳入使用。

EventKG严格遵循数据发布的最佳实践。它基于RDF W3C标准构建了一个高效的数据网络结构,并实现了跨机构的数据互操作性。EventKG不仅支持开放数据和开源软件的标准实践,还提供了可解除引用机制,并通过持续更新其URI地址确保了所有引用都能准确指向实际对象

该系统继承并拓展了现有事件模型,并采用SEM[23]框架来详细描述其中涉及的事件信息;同时采用了现有的术语库(如DBpedia ontology和Dublin Core)来进行知识表示;该系统的元数据由VoID术语表提供;该系统遵循开放获取原则(FAIR),从而实现了能够被查找、访问、互操作以及重新利用的目标;最后,在该平台主页上可以方便地获取到这些信息,并且这些信息既适合人类阅读也适合机器理解

7 可用性和可持续性

可用性方面: EventKG基于开放标准设计,并在开放获取协议CC BY 4.0授权下,并通过唯一标识符(URI)实现公开访问。官方主页提供了丰富的参考资料链接。遵循MIT许可证条款,在GitHub平台提供了开源版本。

可持续性计划: 基于以下三个关键组成部分设计的EventKG将通过以下方式实现长期持续发展:
1)技术架构与软件生态:其开发使用的软件均为开源项目,并可被社区成员重新利用。
2)数据整合与来源优化:其数据来源主要依赖于公开获取的数据库。
3)维护策略与版本管理:作者将定期评估并根据实际需求调整这一知识图谱的技术架构,并支持定期更新以适应新的数据和事件。
通过持续的技术审查与更新机制,保证了所有URI标识符的一致性和稳定性。

8 相关工作

事件的数据模型和词汇表: 若干数据模型及其相关词汇表(如[12,19,20,23])提供了构建事件模型的方法。例如,在现有研究中,Rospocher等人提出了ECKG这一特定的事件建模方法[19]。为提高建模精度,我们采用了细粒度文本注释技术来抽取新闻集合中的事件进行建模。其中,Semantic Event Model(SEM)[23], schema.org[12], 和 Event-Oriented Description Ontology(LODE)[20]本体等技术则分别提供了不同角度对事件进行描述及与参与者的关联性分析的方法。在EventKG系统中,我们基于SEM框架构建了基础模型结构,并通过扩展该方法以捕获更为复杂的时序关系及附加信息实现系统的功能提升。

本研究关注的是从数据中提取事件相关的信息。

从新闻中提取事件和事实: 最近实现了构建知识图谱和识别命名实体的技术,在纯文本新闻上。通过使用开放式信息抽取技术,并进一步优化以应对特定挑战。最新的自动提取技术可能产生大量噪声数据(例如,在文献[19]中使用最先进方法时准确率仅为0.551)。相比之下,在EventKG中的现代事件来源于经过人工筛选的经典来源(如Wikipedia)。

9 结论

在本研究中,我们开发并实现了一个多语言知识图谱EventKG,该系统整合协调了基于事件的时间信息,涵盖了历史与当代事件两大类主题。该版本V1.1已包含69万+个具体事件节点及230万+条时间关联数据,展现出强大的跨语言处理能力与关联分析功能。通过这一创新设计,系统实现了单体知识库对多语言、结构化与非结构化形式下的复杂事物及其相互关联关系的有效整合与融合,特别注重提升关联强度评估及流行度分析能力,并附有详细来源信息支持研究结论。通过采用轻量化整合策略,本系统不仅显著提升了知识图谱的数据覆盖范围与完整性,还特别关注并优化了时间和地点维度的信息组织与关联逻辑构建机制

全部评论 (0)

还没有任何评论哟~