知识图谱de构建与应用（七）：大规模知识图谱预训练

阅读量：

7.1 知识预训练概述

7.1.1 预训练语言模型

7.1.2 知识图谱中的结构化上下文信息

7.1.3 基于知识增强的预训练模型

7.1.4 预训练知识图谱模型与预训练语言模型的区别

7.2 商品知识图谱静态预训练模型

7.2.1 预训练知识图谱查询框架

7.2.2 预训练知识图谱查询模块

7.2.3 预训练知识图谱查询服务

7.2.4 在任务模块中使用查询服务

7.3 商品知识图谱动态预训练模型

7.3.1 上下文模块和整合模块

7.3.2 预训练阶段和微调阶段

7.4 商品知识图谱预训练实践案例

7.4.1 基于知识图谱预训练的商品分类

7.4.2 基于知识图谱预训练的商品对齐

7.4.3 基于知识图谱预训练的商品推荐

7.4.4 基于商品知识预训练的实体识别

7.4.5 基于商品知识预训练的关系抽取与属性补齐

7.4.6 基于商品知识预训练的标题生成

7.5 总结与展望

本章首先比较了预训练知识图谱模型与预训练语言模型的异同，并在此基础上探讨了基于商品知识图谱的知识网静态与动态预训练模型的相关研究。接着，在商品知识网的基础上探讨了静态与动态预训练技术的相关研究。最后分析了商品知识网在静态与动态预 trained技术中的落地应用及其带来的业务效果提升。

7.1 知识预训练概述

知识图谱虽然承载着丰富的信息资源但通常以三元组形式存储为结构化数据这种存储方式使得机器难以直接获取和利用这些信息。通过表示学习的方法可以将知识图谱中的实体与关系映射至连续的空间并将这些信息以向量的形式进行表征从而能够有效提取并建模知识图谱中的内在特征这些向量表示方法在多个相关任务中得到了广泛应用并取得了显著的效果。针对不同的建模目标和应用场景已有多种基于不同方法的知识图谱表示学习策略被提出并取得了较好的实验效果。在自然语言处理领域预训练语言模型如GPT、BERT、XLNET等由于其在多项核心任务上展现出超越以往的最佳性能受到了广泛关注这些预训练方法本质上属于一种表示学习策略其核心思路是先通过大量未标注的自然语言数据训练一个通用的语言模型以获取文本中所蕴含的广泛语义知识然后在此基础上针对特定的任务进行微调优化从而实现高效的学习与应用

受预训练语言模型的启发，在构建商品知识图谱表示时，我们借鉴了'预训练与微调'的思想，并采用'预训练与微调'的方法应用于其中。其中包含了数量庞大的节点数据，并具备复杂的组织架构。这些特性对构建高效的商业知识图谱模型提出了难题

大规模商品知识图谱预训练包含三个主要方向：

商品知识图谱在静态下的预训练；
商品知识图谱在动态中的预训练；
基于强化学习的知识强化预训练语言模型；

其中涉及的商品知识图谱静态预训练和动态预 train是对商品知识图谱内部信息的表示学习另一方面则专注于非结构化文本场景

不同的预训练方法有不同的业务场景，细节将在后续章节详细阐述。

构建针对拥有海量商品数据的阿里巴巴商品知识图谱的预训练方案至关重要。这一过程能够有效规避对海量商品数据反复训练的问题，并显著提升了在各种 downstream应用中的运行效率。

7.1.1 预训练语言模型

在深度学习技术不断进步的推动下，神经网络模型已成为解决各种自然语言处理（NLP）问题的重要工具。这些模型在多个NLP领域展现出卓越的效果，在训练过程中参数数量的急剧增加带来了挑战。为此，在防止过拟合方面仍需采取更多措施以应对这一问题。然而由于标注数据获取的高昂成本，在大多数自然语言处理任务中构建大规模的有标签数据集仍然面临巨大困难特别是在语法分析和语义理解等关键领域。

人类的语言具有高度抽象性以及丰富的知识内涵。

预训练语言模型能够掌握通用的语言表示，并通过识别语言内部的结构知识来增强表现力。特别适用于下游任务数据样本稀缺的低资源场景，在采用预训练+微调策略后可明显提升模型性能水平。预训练语言模型通常接收一个文本序列片段作为输入，在经过神经编码器处理后会生成对应的向量表示。与传统的Word2Vec词向量不同的是，在这种情况下生成的向量表示是具有上下文相关的动态计算结果，因此能够有效捕捉到语义信息的变化特征。相较于固定不变的传统词向量模型，在这种情况下得到的向量表示具备更强的多义词表达能力。就更高层次的文本表示而言，在当前研究领域中仍属于前沿探索的内容

McCann等研究者基于机器翻译技术开展了一系列研究，在关注注意力机制至序列建模的过程中构建了一个深度LSTM编码器进行预训练工作。该编码器通过提取与文本相关的上下文表示（Context Vectors），显著提升了多项常规自然语言处理任务的表现能力。Peters团队则采用了双向语言模型作为基础架构，在这一框架下设计了两层LSTM编码器分别进行正序与倒序的语言建模工作。ELMo借助于这些预训练得到的语言表示，在学习者所需的任务领域展现出了卓越的能力。

然而，在深度学习领域中，“预训练语言模型”的应用多局限于作为特征提取工具来生成上下文词向量这一环节。值得注意的是，在将这些生成的词向量引入下游任务的主要模型时会固定下来——即这种词向量不会参与后续优化过程——而其余参数则需重新从零开始优化。Ramachandran等人研究表明，“无监督预训练方法显著提高了Seq2Seq等序列到序列建模技术的效果”。在此基础上，“编码器和解码器均采用了来自两种语言模型的预训练权重作为初始值”，随后又通过带标签的数据进行微调优化。“ULMFiT框架则通过微调技术应用于基于文本分类（Text Classification, TC）的语言模型，并在六个具有代表性的文本分类数据集上展现了显著的优势。”

最近一段时间内，在探索通用语言表示形式方面展现出了卓越的能力与潜力。例如：

利用生成式预训练模型开发了OpenAI GPT；
基于Transformer架构构建了BERT等分类器；
而越来越多的自监督预训练语言模型则通过从海量文本数据中汲取更多知识，在广泛的自然语言处理应用领域中取得了显著成果。

以BERT模型为例，在预训练阶段基于大规模数据集完成若干无监督任务进行学习，在此过程中主要涉及两个关键任务：即下一句预测任务（Next Sentence Prediction, NSP）以及基于遮蔽语料的建模任务（Masked Language Model）。随后进入微调阶段，在针对下游应用需求（如文本分类、词性标注及问答系统等）进行针对性优化时可显著提升性能表现。值得注意的是，在这一过程中无需改动模型架构（architecture），仅需改动输入输出数据以及训练相关设置（training parameters），即可实现多样化的应用效果

图7-1（a）呈现了BERT模型在预训练阶段的架构设计，在图7-1（b）中则描绘了BERT模型在多数据集及多种任务下的微调架构示意图。该模型具备良好的兼容性和扩展能力，并且其在多种自然语言处理下游应用中展现出卓越的表现

图7-1 BERT模型的预训练和微调过程的模型结构示意图

预训练语言模型的优点可被总结如下：

通过大规模的文本语料库的预训练过程,学习通用语言模型的表示形式,从而辅助完成后续的任务.

（2）预先进行的训练能够提供更有质量的模型参数初始值，在实际应用中通常能够提升模型在新数据上的表现，并且能够在较短的时间内完成优化过程以达到最优解。

（3）可以将预训练视为一种正则化，以避免对小数据过拟合。

7.1.2 知识图谱中的结构化上下文信息

我们定义一个知识图谱 G 由三元组构成，并且 G 可以通过符号表示为 G = {E, R, T}。其中 E 表示实体集（Entity Set），R 代表关系集（Relation Set），而 T 包含所有三元组（Triple）。每一个三元组 (h, r, t) ∈ T 都由头实体 (Head)，关系 (Relation) 和尾实体 (Tail) 组成。这些三元组集合可以用符号形式表示为 T = { (h, r, t) | h, t ∈ E, r ∈ R }。其中头实体 h 和尾实体 t 都属于集合 E，而关系 r 则属于集合 R。

当某一实体涉及多个包含该实体的三元组时，则这些三元组往往揭示了该实体丰富的结构与语义特征。例如：(姚明, 性别是, 男性)、(姚明, 职业, 篮球运动员)以及 (中国篮球协会, … 的主席, 姚明) 这些三元组能够有效地描述"姚明"这一实体。
类似地，在知识图谱中也存在许多包含特定关系的三元组集合。我们将其称作结构化上下文三元组（Structure Contextual Triples）集合，并简记为 C(x)，其中 x 表示某一特定实体或关系。

因此不难看出，在知识图谱中，有两种类型的上下文三元组 ：

实体上下文三元组 C （ e ）：

实体涉及的三元组集合 C （ e ）定义为包含该实体 e 的所有三元组的集合。无论是作为头端还是尾端出现的该实体 e ，都可以被纳入这一集合中。其符号表示为 C （ e ）= { (h, r, t) | 该实体 e ∈ {h, t} }。

C(e)={(e ,r ,t)|(e ,r ,t)∈ T ,e ,t ∈ E ,r ∈ R}∪{(h ,r ,e)|(h ,r ,e)∈ T ,e ,h ∈ E ,r ∈ R}；

关系上下文三元组 C （ r ）；

基于此，在关系情境中使用三元组 C （ r ）定义了一个集合的结构。这个集合由所有包含关系 r 的三元组构成，并且具体来说可以通过特定的方式进行表示。

C (r)={(e 1,r ,e 2)|(e 1,r ,e 2)∈ T ,e 1,e 2∈ E ,r ∈ R}

通过绘制一张简明的示意图来直观呈现上下文三元组在知识图谱中的结构布局。如图7-2所示的图表中使用实心圆圈表示实体节点，并以短线连接表示各实体间的关联关系。图表中采用不同颜色区分出特定三元组的构成要素：蓝色圆形标记头体节点位置、橙色圆形标识尾体节点位置，并以粉色短线明确展示两者之间的关联关系。

对于头实体_h_(蓝色圆圈)来说,它的关联三元组_C(h)_即为与其直接相连的所有两两实体组合,如图中以蓝色短线连接起来的所有二元组合;
类似地,该尾实体_t_(橙色圆圈)的关联三元组_C(t)_则由与其直接相连的所有两两组合构成;
对于关系模式_r_,其对应的关联三元组_C(r)_则由与之相关联的所有二元素组合构成。

图7-2 知识图谱中的上下文三元组

7.1.3 基于知识增强的预训练模型

预训练语言模型主要学习通用语言表征，但是缺乏领域特定的知识。

因此我们可以深入探讨将外部知识融入预训练过程的可能性，并使模型能够同时获取"语义理解能力"与"领域特定知识"。

早期的工作主要整合了知识图谱向量表示与词向量进行联合训练。从BERT起始阶段发展出了一系列结合外部知识的预训练任务，并且代表性的研究包括SentiLR、ERNIE以及K-BERT等模型。

1.SentiLR模型

探讨词汇层次上的语言学知识时，会涉及词汇的词性标记及其情感极性特征的分析。随后，在掩码语言模型的基础上发展出一种具有标签感知能力的语言模型，并在预训练阶段进行优化。

对句子进行层次化标注，并基于单词级别执行知识预测；同时包含词性信息与情感倾向分析。

基于语言学增强的上下文进行句子层面的情感倾向预测。

该研究者将句子或单词级别的标签转换为向量形式，并将其插入到序列指定位置；类似于BERT模型的方法。通过实验结果表明，在下游的情感分析任务中取得良好效果（如图7-3所示）。随后从SentiWordNet数据集提取词汇级的情感极性，并对每个单词添加相应的词性标记。

在预训练过程中，采用标签级别的masking语言模型结合下一句预测机制对模型进行训练。经过SentiLR模型的预训练阶段后，在情感分析任务上可实现简单的参数微调，并于sentence-level情感分类任务中获得了较为理想的效果。

图7-3 SentiLR模型结构图

2.ERNIE模型

ERNIE模型 通过知识图谱上预训练得到的向量表示融入其在文本中的对应实体上 ，从而显著提升了文本的信息表达能力。

具体而言，在知识图谱构建过程中，首先基于TransE模型对实体进行系统性学习与表示，并将其以外部知识库的形式存在。接着通过Transformer模型从文本中提取出丰富的语义信息，并将提取出的文本表示与知识图谱中相应实体的嵌入表示进行融合

学习的目标涉及使用掩码语言模型来预测被遮蔽单词；同时涉及在掩码文本中识别实体，并在知识图谱中预测对应的实体。类似的研究还涉及KnowBERT模型及KEPLER等。这些研究主要通过利用实体向量表示的方式，在预训练过程中引入知识图谱中的结构化信息来进行建模。具体来说，在图7-4（a）部分展示了ERNIE架构示意图：文本输入先通过Transformer编码器进行编码处理；随后引入预定义实体信息作为输入；最终实现文本文本与实体特征之间的联合编码输出。而在图7-4（b）部分则展示了聚合器组件：它通过多头自注意力机制分别对文本文本特征与实体特征进行建模，并在此基础上完成特征对齐与信息融合过程以生成最终语义表示

图7-4 ERNIE模型结构

3.K-BERT模型

将与句子实体相关的三元组信息从知识图谱中导入，并形成层次扩展形式的语义结构。随后导入BERT模型已有的预训练参数。也就是说，在这种情况下我们关注的是微调而非直接使用外部知识图谱中的资源。这里的难点在于异构数据的有效融合以及去除噪声数据。需要构建合适的网络架构来整合来自不同向量空间的数据，并充分提取和利用这些三元组关系的信息。如图7-5所示展示了一个典型的K-BERT模型实例：对于这句话Tim Cook is currently visiting Beijing now 库克正在访问北京当前导入系统会根据上下文对Cook这个词语引入与其相关的三元组信息如Tim Cook CEO Apple以及对Beijing这个词语引入Beijing是_a Capital China和Beijing是_a City等关联关系从而进一步丰富了整个语义网络的内容

图7-5 K-BERT模型

4.KnowBERT模型

如图7-6所示的是知Bert模型该模型基于显示建模方法实现了指代识别技术与实体关联过程整合其利用向量形式将实体信息通过注意力机制整合到文本表示中最终嵌入图谱知识体系

详细说明模型结构图中模块1、2的作用在于生成指称表示；而模块3则负责对不同指称表示之间的自注意力操作；其目的是为了建模各指称之间的相互关系；对于一个特定的指称而言，则会对应多个候选实体；因此，在这种情况下；我们采用模块4来进行权重分配；赋予不同权重后整合后得到一个统一的表示；接着；将module 3输出的指称表征与经过权重分配后的实体表征相加以实现；最后将整合后的结果被送入module 6继续进行自注意力操作；经过这一系列过程之后；module 7能够输出融合了实体信息后的文本向量表达式；基于此向量表达式输出的结果则可用于多种下游任务的应用

图7-6 KnowBERT模型

7.1.4 预训练知识图谱模型与预训练语言模型的区别

预训练语言模型与预训练知识图谱模型（Pre-traind Knowledge Graph Model, PKGM）的主要差异包括以下三点

（1）训练数据类型存在差异。预训练语言模型采用上下文单词序列作为输入数据，这一过程用于提取单词和句子中的语义特征的关键信息；而预训练知识图谱模型则采用结构化的图网络作为输入数据，并通过两两实体之间的关系构建其核心架构。

（2）模型的输入存在差异。在预先学习语言模型中，默认接受单一句子或两个句子连结形成的一串单词序列作为处理对象；而在预先学习知识图谱模型中，则采用由一系列上下文三元组构成的结构作为主要处理单元

（3）模型的训练目标不同。

预先经过大规模预训练的语言模型（即传统意义上的预训练语言模型）的主要目标在于从大量文本数据中提取词性和句法层面的信息特性。这些特性包括词语之间的关系模式以及不同语句之间的语义关联性。这种特性提取工作不仅适用于单独处理单个词语或单独分析一个完整的语句（即单词级或句子级的任务），而且即使是在增强型预 trained语言模型中加入知识库的情况下（即所谓的" knowledge-enhanced" language model），其主要目标也是一样的：仅是为了在评估指标上有所提升而引入额外的知识数据。
- 预先经过大规模预 train 以构建知识图谱的语言模型（即所谓的" pre training knowledge graph model"）的核心在于优化与之相关 downstream 任务效果。例如，在实际应用中我们可能会关注实体对齐、三元组分类等方面的具体表现指标；然而并不局限于仅仅关注文本层与句法层的基础任务（即单词级或句子级的任务），可能会利用外部辅助信息以辅助实现特定应用需求；其核心关注点仍然是如何提高与知识图谱相关的特征表示能力和下游应用的效果。

7.2 商品知识图谱静态预训练模型

基于知识图谱中的结构化上下文信息构建预训练模型，并为其下游任务提供丰富的知识支持；通过构建强化学习的任务框架来实现对这些下游任务的优化；从而显著提高性能水平。

在构建知识图谱静态预训练模型的过程中体现出了一种独特的特性：这种特性能够在构建过程中体现出一种独特的特性，在构建过程中体现出了一种独特的特性，在构建过程中体现出了一种独特的特性。这种特性具体表现为能够为各种下游应用场景生成高质量的知识图谱向量表示，并且通过实体ID或关系ID的方式可以快速检索出相应的向量信息。这种特性还体现在其能在实际应用中被引用并用于数据计算，并且无需将下游任务的数据输入模型即可生成所需的向量表示。

采用预先训练好的商品知识图谱模型作为知识增强任务的知识来源, 既可规避繁杂的数据筛选与架构设计的工作量, 又能弥补商品知识图谱数据体系的不完整性. 类似于预训练语言模型在连续的向量空间中对每个词进行编码生成相应的向量表示, 从而能够辅助解决多种 downstream应用问题.

预训练知识图谱模型的主要目标是在连续向量空间领域开展相关服务活动，并通过向量表示技术实现必要的事实提取与推导功能；该系统设计使其能够使得下游任务能够基于向量表示进行必要的事实提取与推导功能，并非必须深入三元组数据进行查询

7.2.1 预训练知识图谱查询框架

预训练的知识图谱模型主要采用两种不同的Query方式来实现信息检索功能：一种基于三元组的知识图谱Query机制（TTPM），另一种基于关系型知识图谱的关系查询机制（RQTM）。其中TTPM通过索引实体间的关系来提高检索效率与准确性。

基于给定头实体_h_及关系_r_的前提下，在三元组知识图谱中进行推断以寻找缺少的尾实体对象，则该特定任务可简称为_Q_triple（h,r）。具体而言，在这一查询任务中

基于关系的Query（Relational Query）旨在确定某个系统是否拥有指定的关系或属性。

基于某特定实体的关系查询旨在预测并检索与之相关的关联关系。可以用SPARQL表达为

因此，在面对商品知识图谱存在不完整性的问题时，预训练的知识图谱模型必须具备以下功能：建立商品间相互联系的机制；有效整合外部的数据资源；提供实时的商品信息更新能力；支持多维度的商品属性建模；实现精准的商品匹配服务；确保数据安全与隐私保护功能；完成对新商品信息的快速接入能力

● 对于某一实体，显示该实体是否存在与之相连的某个指定关系。

● 对于某一头实体，显示该给定头实体的尾实体是什么。

● 为给定的头实体和关系（如果存在）预测缺失的尾实体。

经过在预训练过程中，在特定环境下进行过优化后，在预定条件下运行的三元组查询模块与关系查询模块能够为任何一个指定的目标实体提供一致的知识服务向量。

更具体地说：

主要方面而言，在线性代数中，
- 关系查询模块通过生成服务向量，
  - 为一类对象提供其关联属性的空间表示，
    - 若该对象具备相应的关联性，
      - 则其服务向量将趋向于零向量。
- 另一重要方面，则由三元组查询模块为此类对象生成相应的尾部实体关联信息。

预训练知识图谱模型 通过向量空间计算为其他任务提供项目知识服务。

在预训练阶段，在大规模商品知识图谱上对模型进行预训练，并使该模型具备为三元组查询和关系查询提供所需的知识信息的能力

在服务阶段，在需要三元组知识的任务中，预训练知识图谱模型生成带有三元组嵌入的向量表示，并被应用于基于向量表示的知识增强任务模型中。

7.2.2 预训练知识图谱查询模块

主要依赖于关系型数据处理技术和三元组式数据存储机制的基础上

图7-7 知识图谱静态预训练模型

该组件会生成一个服务向量 $...$ 用于表示候选尾部实体。针对某个正确的三元组 $_1$ （ $_{head}$ $_{relation}$ $_{tail}$ ），该组件基于向量空间模型将 $_{head}$ 和 $_{relation}$ 结合后认为能转化为 $_{tail}$ 。通过评分函数 $f_{triple}(_{head}$ $_{relation}$ $_{tail})$ 能够评估这一转换关系的可信度。

表示学习方法通过大量实验证明其在将实体与关系映射至向量空间方面具有显著效果。因此，在三元组查询模块_M_triple中采用的是TransE模型这一较为简单的 yet 高效的方法。每个实体_e ∈ E、r ∈ R以及对应的头实体_h、尾实体_t都被编码为了特定维度的空间中的点。其中这些_h_, r, t都是_d_-维实数空间中的元素，并且都满足一定的几何约束条件。根据转换模型的基本假设原则，在每一个正确的三元组（h, r, t）下都存在_h + r ≈ t这一等式成立的关系式成立情况。其中这些_h_, r, t都是_d_-维实数空间中的元素，并且都满足一定的几何约束条件。
评分函数可以表示为：

在公式中，
$||_{x}||$ 被定义为向量_x的_L1范数。
当一个正确的关系三元组存在时，
我们希望当一个正确的关系三元组时，
其对应的向量之和 $h+_r与目标向量$ t尽可能接近；
而对于错误的关系三元组，
则要求当错误的关系三元组出现时，
其对应的向量之和 $h+_r与目标向量$ t保持足够的距离。

（2）关系查询模块_M_relation。主要旨在编码实体_h与其关联某种特定的关系_r，并通过评分函数_frel(h, r)_来进行评估。具体而言，在模型中使用零向量0来表征这种关系的存在与否。当实体_h与关联的关系_r连时（即_h,_r属于训练数据集中的三元组），评分函数_frel(h, r)_会接近于零向量0；反之，则希望该函数远离零向量0以避免误判。为了实现这一目标，在模型中定义了转化矩阵_Mr用于将实体_h转换为与其相关的特征表示_r，并通过计算_Mrh与目标值_r之间的差异来优化模型性能

f rel(h ,r)=Mrh-r

7.2.3 预训练知识图谱查询服务

在包含两个查询模块的训练过程中，在基于知识图谱预训练的模型中已有的参数基础上（其中包含头实体_h_、关系_r_以及尾实体_t_的向量及其转化矩阵_Mr_等），能够针对特定任务提供两类对应的知识服务。

该三元组查询服务 S_triple能够基于给定的头实体 h 和关系 r 预测出相应的候选尾实体：

S triple(h , r)=h +r

如果知识图谱数据集_K_中确实存在相应的三元组（即（h, r, t）∈ K），那么_S triple_(h, r)将具有与尾实体_t_v高度相似的向量表示；反之，在数据集中若不存在直接关联_h与_r的三元组，则可通过_S triple_(h, r)获得最可能对应的尾实体_t_v的向量表示。这种机制本质上即为三元组补全问题，在知识图谱领域被广泛采用和验证的一种核心任务形式。

（2）该系统中的关系查询服务_S_rel如同之前介绍的三元组查询服务，在这种情况下可以通过生成向量来表示实体_h_是否包含关系_r的三元组。

S rel(h ,r)=Mrh-r

在以下三种情况下：第一种情况下是实体_h显式连接到关系_r；第二种情况下是实体_h隐式连接到关系_r；第三种情况下是实体_h并未连接到关系_r。其中，在第一种情况下会使得_S_rel非常接近于零向量0；第二种情况下即使没有直接的三元组记录但依然有相关联的情况出现此时_S_rel仍然非常接近于零向量0；第三种情况下则会使得_S_rel与其相差较大

将前述三元组查询模块与关系查询模块各自对应的两个阶段函数按列列出于表7-1中，则可更直观地比较两者之间的差异与关联。

表7-1 知识图谱静态预训练模型的预训练阶段和服务阶段的函数

给定头实体_h_与关联关系_r_存在时，在基于静态预训练模型的知识图谱上执行特定查询操作可获得具有显著优势的知识产物：首先，在分析过程中可通过向量运算推导出相应的尾实体_t_值这一关键点；其次，在这种设计框架下不仅可独立于原始输入数据运行（从而确保数据机密性得以有效维护），而且还能将复杂的数据检索逻辑分解为多个可并行处理的功能模块（如利用矩阵分解技术提取特征表示），使该系统具备良好的扩展性和适应性特点；此外，在现有知识库的基础上引入推理机制后还能补充那些尚未被记录但在实际情境中确实存在的潜在关系

7.2.4 在任务模块中使用查询服务

在知识图谱中，在某个具体研究对象及其相关上下文信息（如7.1.2节所述）的基础上，可以通过三元组查询模块与关系查询模块协同工作的方式生成一系列服务向量序列，并将它们统一表示为向量形式

该和相当于 NLP 领域中表示文本或特征标签的单词向量序列。其中通过某个实体_e 得到上下文三元组（ h ， r ， t ）中收集所有的关系_r 构成核心关系集合_Re 而这里的 k 表示核心关系集合_Re 中的第 k 个关系。

基于目标实体生成包含知识图谱结构化信息的两种服务向量都嵌入到同一个统一且连续的向量空间中, 有利于后续多种基于知识图谱的任务实现. 根据输入的目标实体及其对应的向量数量, 可以将下游依赖于这些向量的任务划分为两类: 一类是用于处理多个序列信息提取的任务模型, 另一类则是专注于单一序列信息提取的任务模型.

（1）该向量序列模型。该模型的输入通常是一系列多维向量构成的长序列数据。这些多维向量往往携带丰富的信息内容，并且在实际应用中可能来自不同的来源。例如，在某些情况下，输入数据可能来源于某个实体的具体文本描述；另外一种情况则是通过标签特征生成相应的向量序列。具体来说，这样的长序列数据通常可以用数学公式 $X = (x_1, x_2, ..., x_n)$ 来表示。

鉴于序列模块具备自动生成元素间交互信息的能力，并且其机制与BERT架构中所采用的双向Transformer组件相似，在特定应用场景下可实现类似效果：通过将基于实体 e 的两种服务向量分别拼接到原有输入序列尾端的方式进行处理，则可使原始文本单词与知识图谱相关信息自然融合并实现充分地进行交互学习。在此基础上，模型的新输入形式变为：即首先引入三元组查询模块的服务向量作为补充，并紧接着在尾部添加关系查询模块的服务向量序列。如图7-8所示，在尾部添加服务向量的具体示意图

（2）单一的向量模型。单一的向量模型即仅接收一个与目标实体_e_相关的输入信息。这里的单个信息特征由实体_e_在潜在语义空间中的独特表示形式_Ee_来体现，并如图7-8所示左侧部分进行展示。

图7-8 将服务向量添加到向量序列模型尾部的示意图

基于该模型原始输入设计了一种单一输入向量；旨在实现一种在输入与知识融合之间的平衡策略。为了实现这一目标。

将两个向量进行融合形成一个新的向量。具体而言，在这里为了实现基于相同关系但来自不同模块的两个向量的整合与综合分析目的，请考虑将它们连接以构建一个新的综合向量

在式中，变量_i_属于整数集合中的一个元素，并且满足_i_ ∈ [1, k]；符号[x；y]表示将向量_x_与向量_y_进行连接以形成服务整合向量。

然后，将生成的向量序列进一步整合，平均池化为单个向量：

在此时此刻, 通过充分整合了结构化的知识信息以及原始数据 Se 和 Ee, 我们成功地将它们融合成一个整体. 图7-9用于展示如何将服务相关的特征向量 Sv 整合进该统一模型.

图7-9 将服务向量添加到单个向量模型的示意图

7.3 商品知识图谱动态预训练模型

相较于基于静态预训练的知识图谱模型，在为下游任务提供嵌入表方面仅能提供已整合结构化信息的内容。相比之下，在基于知识图谱的动态预训练模型中，则能够根据不同下游任务的特征自动优化其架构与参数配置，并据此对模型架构进行微调优化以及适应性配置。该种模式展现出显著的兼容性和扩展能力。

7.3.1 上下文模块和整合模块

动态预训练的知识图谱整体架构主要包含上下文提取模块与整合学习模块两个核心组件。其中一部分负责从目标三元组中提取其相关的上下文信息，并将这些信息转化为统一维度下的表示。另一部分则专注于对这些向量序列进行协同优化与特征提取，在此过程中深入挖掘潜在结构化的特性，并运用得分类函数评估该任务的表现力来进行模型优化。

（1）上下文模块。在上下文模块（Contextual Module，C-Mod）中，首先给定一个目标三元组τ=（ h ， r ， t ），可以通过7.1.2节对结构化上下文信息的定义，得到该三元组的上下文三元组集合：

C(h ,r ,t)={C(h)∪ C(r)∪ C(t)}

亦即可表示为：此目标三元组中头实体 h 、关系 r 和尾实体 t 各自的相关上下文三元组的合集。

针对每一个包含上下文信息的三元组（hx, rx, tx）∈ C（h, r, t），都需要将对应的三个向量hx、rx与tx编码成一个向量cx：

cx =C-Mod(＜ hx , rx , tx ＞)

式中，＜ a ， b ， c ＞表示向量 a 、 b 和 c 组成的序列，并且向量满足 hx ∈R d 、 rx ∈R d 和 tx ∈R d 。

在C-Mod框架中有关于编码方式的具体实现方案可供选择，在将向量序列输入到Transformer模型之前需要对原始序列进行特定处理以增强其表达能力。具体而言，在原始序列＜ hx ， rx ， tx ＞之前附加一个特殊的标记符号[TRI]以形成新的序列＜[TRI]、hx 、rx 、tx ＞（其中：[TRI]∈R_d）。这种处理方式能够有效提升模型对上下文三元组特征的学习能力，并通过充分交互机制将三元组的所有关键特征融入到对应的向量表示中（即[hx]、[rx]、[tx]）。值得注意的是，在Transformer模型的最终输出层上会单独为标记符号[TRI]生成对应的向量表示[cx]以捕获其特有的语义信息。基于这一机制构建的三元组表示系统能够有效地捕捉实体间的关系特征并提供精确的语义嵌入。

式中，

用以表示头实体_h_、关系_r_或尾实体_t_中的某个_x∈{h, r, t}_的第_i_个上下文三元组特征向量；其中_n_表示上下文三元组的数量

（2）整合机制。通过序列整合编码的方式将该目标三元组的上下文三元组向量序列seq进行整合编码处理，从而生成对应的整合向量 a

a =A-Mod(seq h ,seq r ,seq t)

为了通过增强目标三元组（h, r, t）中每个元素对应的上下文三元组在训练过程中的独立性而改进模型性能，在每个原始三元组上附加特定的段向量以区分不同实体的信息需求。具体而言，在传统的基于图嵌入的知识图谱推理模型中通常假设所有节点具有相同的嵌入空间表达能力这一假设不再成立。针对这一问题，在知识图谱推理模型中引入了三个不同的段向量：sh用于表征头实体h所关联的具体上下文信息、sr用于表征关系r所包含的信息特征以及st用于表征尾实体t所具有的语义背景信息。通过将这些特定的信息片段与原始上下文信息结合在一起得到新的嵌入空间表达能力以更好地捕捉复杂的关系模式

式中， x ∈{h ， r ， t}。三元组特征向量序列也可以表示为

此外，在将三个三元组的上下文特征向量拼接输入模块之前

该集成模块采用另一组不同参数的多层双向Transformer编码机制，在经过充分训练后提取了最后一层Transformer中[HEA]、[REL]和[TAI]标签对应的信息并将其表示为特征向量 ah 、ar 和 at 。

最后一步是将得到的三个向量进行连接，并通过一个全连接层将其转化为一个统一的整合向量。

a τ=[ah ;ar ;at]W agg+b agg

式中，[x ； y ； z]表示将向量 x 、向量 y 和向量 z 拼接在一起； W agg∈R3 d × d 表示该整合模块的权重矩阵； b agg∈R d 表示该整合模块的偏置向量。

（3）评估与损失函数。基于前述的上下文模块与整合模块，在目标三元组τ=（ h ， r ， t ）的情况下，评估与损失函数可以被定义为

s τ=f (h ,r ,t)=Softmax(a τ W cls)

在公式中，分类权重矩阵_W_cls_属于实数域R^d×2空间中的一个矩阵。通过应用Softmax函数处理后得到的结果向量_s_tau∈R²是一个二维向量，并且其正确预测得分为_s_tau₁与错误预测得分为_s_tau₀之和等于1。

s τ0+s τ1=1

在构建完善的基础上分别构建了正类三元组数据集 D⁺ 和负类三元组数据集 D⁻ 作为训练集，并在性能评价指标 sₜ 和分类标记 lₜ 的基础上应用交叉熵损失 L 进行优化

在式中,l τ∈{0,1}标识了三元组τ是否正确的标签.若三元组τ属于正样本三元组集合D+中的某一个元素τ,则标签_l_ τ被赋值为1;否则,l τ被赋值为0.

7.3.2 预训练阶段和微调阶段

类似于自然语言处理领域中的预训练模型，在知识图谱的动态预训练过程中同样包含有预训练和微调两个核心环节。在这一过程中，在第一阶段通过对海量数据进行无监督学习完成基础构建，在第二阶段则实现了模型性能的进一步优化与提升。

针对特定任务和特定数据集的情况，在预训练过程中会对模型结构进行相应的调整以适应性配置，并在此基础上进一步优化模型参数以实现微调过程，在特定任务应用中能够更快地提升性能并获得更好的效果。

（1）预训练阶段。在预训练（Pre-training）阶段中，在知识图谱动态预训练模型中使用三元组分类任务进行学习。该分类任务为无监督学习模式，在知识库中存在的三元组（ h ， r ， t ）被视作正样本实例的同时生成可能的替代表达形式或关系表达式来构造反例集合。模型旨在完成二分类目标任务——判断给定三元组是否正确存在于知识图谱中。对于每一个输入的原始三元组实例（ h ， r ， t ），系统会收集其相关上下文三元组，并通过采样与聚合的方式进行处理以获取结构化信息特征表示。这些上下文信息会被整合到知识图谱动态预训练模型中进行学习训练，并最终生成具有丰富语义特征的向量表示输出结果。具体而言，在目标三元组（ h ， r ， t ）的基础上找到其相关的上下文支持三元组集合，并通过上下文模块与整合模块将这些信息特征提取出来输入到模型中进行优化迭代学习过程以获得最终的向量表示输出结果如图7-10所示

预训练阶段需要用到极大规模的知识图谱数据集，并且最好包含完整性较高的知识图谱数据集。这样才能更深入地掌握知识图谱中的深层结构信息。例如，在预训练过程中我们主要采用了基于包含8亿个单词的BooksCorpus数据集和25亿个单词的Wikipedia数据集的技术路径。此外还分别采用了1.1亿个参数的BERTBASE模型和3.4亿个参数的BERTLARGE模型作为研究对象。这些不同规模的模型均在每个TPU上连续训练四天后完成任务

图7-10 模型结构示意图

对于知识图谱的数据集而言，在尝试构建跨越多个知识图谱数据库（如FB15K、WN18、YAGO等）的完整数据集时会面临诸多挑战。由于每个数据库中的实体与关系采用不同的表示方式（例如Freebase以事实为中心而WordNet则侧重于词性），直接合并这些数据以建立联系极为困难。尽管如此，在缺乏直接关联的情况下我们仍可间接构建一个足够丰富且充足的预训练知识图谱数据集：主要依赖于基于真实世界的描述（WordNet）这样的词性资源库。该库包含单个词语的不同词性形式以及它们之间的关系网络，在一定程度上反映了真实场景下的语言习惯与语义关联机制。此外通过对其他数据库中多词短语所包含的基本单位进行分析我们可以建立起不同数据库之间的事物联系以及潜在相似的关系网络。而在阿里巴巴电商领域则可以直接通过整合海量商品及其属性信息形成一个庞大的三元组集合从而为预训练模型提供丰富的结构化信息资源。这个规模巨大的商品知识图谱不仅拥有超过10万个独特的商品节点还包含了高达100万个三元组的关系节点能够满足预训练的需求并且在下游应用任务中展现出强大的迁移能力

（2）微调阶段。在Fine-tuning阶段中，在具体任务与数据特性指导下进行优化后的新架构将被应用，并在此基础上，在经过优化后的新架构基础上，在特定的数据集上进行微调训练以获得符合该任务需求且具有良好效果的模型。

例如而言, 实体对齐的任务目标在于识别出在真实世界中本质上是同一事物或事件的情况, 而在知识图谱数据集中由于存在多义性或其他表征差异, 同一个概念可能会以不同的形式存在, 如汉语语境下常见的近义词替代（如"漂亮的"与"美丽的"）、动词与名词替代（如"睡觉"与"睡眠"）以及名词与其拉丁语系来源（如"狗"与"Dog"/"Canis lupus familiaris"）。这些不同表征虽然在意义上具有等价性, 但其具体文字描述存在差异性。在此背景下, 实体对齐任务的核心在于将原本由三元组(Human Head, Relation, Tail)所表示的关系网络转换为头尾实体配对(Head, Tail)的形式, 即去除关系项的同时保留前后的两个实体节点进行匹配处理。进一步而言, 这两头节点即代表被判断为意义等价的一组实体对(Entity1, Entity2)。相应地, 模型输出部分则需要使用相应的训练函数来判断这两个实体是否完成了一定程度上的对齐匹配工作, 具体细节可参考图7-11(b)所示的内容框架。

例如，在实际应用场景中常涉及的知识图谱构建过程中会遇到一类特殊的建模需求：实例化某个概念或属性时通常会采用某种特定的关系式进行表示。在此背景下，在实际应用场景中常涉及的知识图谱构建过程中会遇到一类特殊的建模需求：实例化某个概念或属性时通常会采用某种特定的关系式进行表示。在此背景下

图7-11 微调步骤

7.4 商品知识图谱预训练实践案例

基于电子商务平台内的海量丰富商品库中展现出显著的增长趋势。为了满足日常运营需求，在处理海量商品时应当采用更加高效的方法实现精准描述、高效存储以及快速计算功能；同时还需要整合来自多端的数据源来构建语义关联网络进而实现对实体间关系的深入刻画最终决定采用基于知识图谱的数据架构方案

阿里巴巴存储了高达数千亿元规模的商品数据构成商品知识图谱。这些数据由包括淘宝、天猫在内的多个阿里旗下平台提供，并涵盖了品牌制造商、消费者、国家机构以及物流供应商等多个方面的相关方数据。从知识产权保护与购物体验的角度来看，在线商品信息的标准化与内外部数据深度关联挖掘对于电子商务发展至关重要。借助自然语言处理技术与语义推理方法以及深度学习最新进展，在全球范围内提供产品概况信息的同时能够有效识别假冒产品并完善行业运营信息库从而为搜索服务推荐业务平台治理及智能问答等功能提供人工智能支持让用户体验更加优质目前该知识库包含标准产品标准品牌标准条码以及标准分类四个核心要素整合公众情感百科全书国家行业标准等九大本体论数据集通过实体识别实体链接以及语义分析构建了一个包含700多亿条三元组及300多万个规则的巨大知识架构从而形成了一个完整而庞大的知识视图这为基于知识的服务提供了坚实的支撑基础例如该系统能够支持语义检索智能问答以及精准的商品推荐等多种基于知识的服务

在实际应用场景中围绕商品知识图谱展开了系统性技术研究与应用工作涵盖了商品分类同款识别商品推荐标签发现以及商品属性预测等多个核心业务场景为了使知识图谱信息能够根据不同任务需求得到有效利用我们采用了预训练+微调模式对知识图谱进行建模实验结果表明该方法能够在不同任务中展现出显著优势特别是在数据资源较为有限的情况下相较于传统方法具有明显性能提升

7.4.1 基于知识图谱预训练的商品分类

该平台的商品分类主要任务是将各类商品归类于预先设定的类别列表中。作为阿里巴巴电商平台的重要工作之一，商品分类不仅涵盖商品的大类划分，还涉及多项属性划分内容。这些包括但不限于适用于不同生活场景的商品种类、适合不同人群的商品特性等。此外，在线店铺经营过程中还需实时更新各类信息数据，在线更新各类信息数据以适应新增的商品标签与属性设置方面则相对较为复杂，在线更新各类信息数据以适应新增的商品标签与属性设置方面则相对较为复杂。

给定一个数据集 $D$ = $\{P, T, C, R\}$ , 其中 $P$ 依次分别是商品（Product）集合、标题（Title）集合和类别（Class）集合；而 $R$ 则是一系列记录（Record）的集合, 可以表示为 $R = \{(p, t, c) | p \in P, t \in T, c \in C\}$ 。每个商品标题均为有序排列的单词序列, 即 $t = [w_{1}, w_{2}, w_{3}, …, w_{n}]$ 。进而将该分类任务建模为从标题空间到类别空间的映射学习问题。

f :T → C

目前将商品分类任务转变为文本分类任务，在阿里巴巴电商平台中，默认情况下有大部分商品由卖家提供的产品标题和所选的类目选项可供参考使用以构建训练数据集。

在文本分类领域中, 基于深度学习的方法已被证实超越了传统方法. 给定任意输入样本x∈X, 映射函数_f_将通过表示学习机制生成其对应的稠密特征向量. 最近的研究表明, 在大规模预训练语言模型方面取得了显著进展的研究表明, 在自然语言处理领域中使用BERT等特定类型的预训练语言模型已成为主流趋势. 此研究中，默认将BERT作为项目的核心基础

BERT是一种预训练语言模型，在各个层次上运用多层Transformer的双向编码器进行综合训练，并基于大量未标注的数据学习出深层双向表示向量。该模型通过海量文本数据展现出良好的实验效果，并因此成为广泛应用于文本编码任务的方法之一。在实际应用中，则是通过谷歌发布的BERT模型及其参数开展的商品分类实验研究，并可参考其官方源代码和指导手册获取具体实现细节

图7-12所示为商品分类任务模型，展示了商品分类任务模型的结构示意图。

（1）基准模型。基准模型中输入的是商品标题描述文本序列，输出[CLS]标签对应的向量 C ，结合全连接层用于分类训练，即

y =σ(WC +b)

式中，

该变量代表权重矩阵；
其中_b∈ℝ^d_, 表示偏置矩阵；
其中_d_, 代表单词向量的空间维数, 在BERT架构中被定义为隐藏层宽度；
其表示当前任务类别数量。

（2）基于知识增强技术的模型在商品分类任务中发挥着重要作用。针对部分业务场景如商品类目错放问题，在知识图谱中可直接获取相关商品信息。通过融合预训练好的知识图谱服务向量来增强模型性能，在两个查询模块中分别引入了各自 k 个维度的服务向量。为了保持模型的一般性和性能优势，在构建业务模型时仅选择了单一的商品向量作为核心输入向量。将 [SEP] 标签插入到原有文本序列后，并结合对应的编码信息进行融合处理。进一步实验发现，在原始BERT架构中对低层结构（如输入层）施加编码信息的效果较弱。相比之下，在高层结构（如输出层）注入编码信息表现更为显著。该种方式具有显著的效果

图7-12 商品分类任务模型

构建应用知识增强模型的基础条件是能够获取当前商品节点在商品知识图谱中的相关信息。然而，在涉及如商品发布等业务场景时，在当前节点尚未完成创建的情况下无法获取相关知识图谱信息。针对这种情况，在这种特定环境下采用基于改进后的知网BERT（KnowBERT）语言模型进行商品分类任务的研究与实现工作。具体而言，在基于商品领域构建的知识图谱上对知网BERT（KnowBERT）模型进行了针对性优化，并将带有结构特征的信息替代原有的实体向量数据；同时引入了来自该领域知识图谱中的损失函数作为优化目标，并以该领域特定语义为基础设计了新的损失函数形式；具体展示在图7-13中的是经过预训练后构建的知识增强预训练语言模型的具体架构示意图

（3）实验与案例分析。在阿里巴巴真实场景中抽取了1293个类别及其商品，并生成了数量相等的正负样本数据集（如表7-2所示）。为了验证结合文本的知识图谱预训练模型的能力，在数据准备过程中限定每个类别下的实例数量不超过100个。为了进一步评估该模型的表现能力，特意构造了每类包含不同数量实例的三种数据集：分别对应20个、50个和100个实例的 dataset-20、 dataset-50 和 dataset-100。表7-2中的 #Train、#Test 和 #Dev 分别表示基于三元组构建的训练集、测试集和验证集。

图7-13 商品知识图谱增强的预训练语言模型

表7-2 商品分类任务的数据集

在实验中，基于预训练语言模型BERTBASE在中文数据集上的训练成果建立基准模型框架，在该框架中包含了12层Transformer模块、12个注意力头结构以及768维的向量空间。与BERT架构相似，在输入序列前添加特殊的起始标记[CLS]以辅助识别整体信息特征。为了实现统一处理效果，在实际操作中将整个序列设定为固定长度128个单位，并包含一个起始标记[CLS]以及长度为127个单位的标题部分。对于原始标题文本过短的情况，在末尾添加占位符使其达到要求长度；若超出限制，则取舍前127个字符以确保数据完整性。

对于融合了知识图谱预训练服务向量模型BERTPKGM-all而言，在其输入序列末尾替代原有的前 $k$ 维特征层这一操作下构建了一种新型架构：具体来说，在基准模型BERT的基础上，在其输入序列的最后一组 $k$ 个位置上分别接入 $k$ 组关系查询子层和服务向量序列以及 $k$ 组三元组查询子层和服务向量序列，并随后对该联合架构进行微调训练以优化性能参数。这种策略与仅采用关系查询子层构建的新架构方案相对应则分别命名为BERTPKGM-T和BERTPKGM-R两种变体形式

在 batch size 为32、learning rate 为2×10-5 的 parameter settings 下进行了三轮 epoch 的训练，在此过程中, knowledge base pre-trained 的 service vector 值保持恒定, 而 BERT model 中的相关 parameter 在 training 过程中将经过 optimization. 最终实验结果如表7-3所示, 包括商品分类任务中的 accuracy 指标（标记为 Accuracy, AC）以及 Hit＠ k 指标. 其中, Hit＠ k 表示在所有测试数据集上正确预测出的商品类别占所有商品类别预测序列中排名前 k 位的比例, 其中 k 取1、3 和10等候选值.

表7-3 商品分类任务的结果

通过实验结果可以看出，在预测精度和Recall@_k指标方面，在所有三个测试数据集上均表现出更高的性能的融合型BERT-PKG（BERTPKGM）较基准型BERT-BASE表现更为优异。具体而言，在同时融合了两种服务向量的基础上构建的BERT-PKG-full模型在Recall@1指标上的表现最为突出；而在Recall@3、Recall@10以及预测精度等多个关键指标上均展现出不俗的表现力，并且其中某一版本的模型能够在特定条件下达到最优实验效果。这一研究结果进一步验证了基于知识图谱预训练的深度学习框架及其相应的查询服务向量体系的有效性；值得注意的是，在实际应用中发现关系型实体检索模块往往能够发挥出比三元组检索模块更为重要的作用

该段改写说明

7.4.2 基于知识图谱预训练的商品对齐

阿里的电商平台上的商品数量规模已达到数十亿级别，并给商家的商品管理带来了巨大的挑战。其中的挑战之一是关于如何高效识别相同款式产品的任务。在知识图谱中表示的商品实例本质上涉及的是同一款产品的识别问题。我们定义同一款产品为由相同厂家生产的、具有相同款式和属性的产品，并且与具体的销售店铺无关。而根据平台规则，在这里每个平台中的不同店铺或者商家可能会将同一个产品上传并进行销售操作。因此我们可以认为：每个平台中的一个特定物品会被多个不同的商家在平台上展示出来，并拥有各自独立的商品id标识符（如A101这样的编号）。举个例子来说，在不同电商店铺中销售的绿色、256GB容量的iPhone X手机数量众多：它们可能是来自不同商家并上传至电商平台的产品信息库中的不同条目；但从单一的产品角度来看：它们都是同一个型号的产品实例（如都是 iPhone X）。因此在判断两个不同的平台或商家提供的物品是否属于同一款产品对于阿里巴巴平台上的日常运营至关重要

对于任何两个图像_I₁_, I₂∈I×I，在图像空间中存在映射函数F: I×I→S×S。

f :R → L

当前阶段, 商品对齐任务被归约为二类分类问题. 图7-14展示了该模型架构, 其中基准模型采用类似于BERT下游任务的方式处理输入内容, 即将两个文本片段分别作为独立输入并执行分类判断, 其具体逻辑与商品分类任务一致; 在知识增强模块中, 为每个文本序列后依次添加[SEP]标识符以及对应服务向量序列以携带知识信息.

在商品知识图谱中提取出女式服装、发饰和儿童袜品三个类别组成的三元组集合用作实验数据集

图7-14 商品对齐任务模型

在每个数据集中共有数千个样本，在每个样本中都包含了两组商品及其标题，并标记了这两组标题是否对应。其中标注值为1时表示两组商品标题对应匹配、标注值为0则表示无对应关系。随后会按照7:1.5:1.5的比例将所有正负样本来划分成训练集合(Train)、测试集合(Test-C)与验证集合(Dev-C)，用于训练模型并评估其分类性能；但在进行前_k_项预测命中率(Hit@k)指标的计算时，则需要从这些样本来提取仅包含正样本的数据并进行排序(Rank)，从而获得相应的测试集合(Test-R)与验证集合(Dev-R)，具体信息可参考表7-4

表7-4 商品对齐任务的数据集

类似于商品分类任务的研究中

表7-5 商品对齐任务的Hit＠ k 指标的实验结果

同时，在结合基于知识图谱预训练模型生成的两种查询服务向量的不同组合形式时，在进行实体对齐任务的预测准确率比较分析的同时（具体内容见表7-6），我们能够清晰地观察到：BERTPKGM-all模型在三个测试数据集上的性能表现最佳，并且相较于其他方法，在提升实体对齐任务的预测能力方面具有显著优势

表7-6 商品对齐任务的准确率指标结果

7.4.3 基于知识图谱预训练的商品推荐

旨在通过分析用户的浏览行为、搜索记录以及购买历史等信息作为隐性反馈（Implicit Feedback）数据集的基础上实现为用户提供精准的商品推荐服务

商品推荐任务的模型如图7-15所示。

图7-15 商品推荐任务的模型

（1）基础架构。采用神经协同过滤方法作为核心框架构建推荐系统模型。该系统通过广义矩阵分解机制与多层感知机机制对用户行为进行建模分析，在信息提取方面实现了良好的平衡效果：其中广义矩阵分解机制采用线性核函数用于模拟潜在的特征交互关系；而多层感知机机制则采用非线性核函数，并通过数据学习用户的偏好关系。

神经协同过滤算法框架由输入层、向量表示模块、中间处理模块和输出模块构成。输入层包含有表示该用户的特征信息。

为了描述商品 i 的特征表示，在实际应用中生成的特征表示均为独热（One-Hot）形式。通过全连接层将稀疏输入转换为密集表示以解决独热编码在大规模运算中效率不足的问题。此时，在推荐系统中, 用户 u 和商品 i 分别对应的特征表示分别为 \mathbf{p}_u 和 \mathbf{q}_i。

然后将用户向量 pu 和商品向量 qi 输入到神经协同过滤层，并将其潜在的向量转换为预测得分；最终输出预测得分为。

在式中所述的情况下，在矩阵_P∈ℝ^{{M×K}中代表用户的向量映射关系；而矩阵_Q∈ℝ}{N×K}则代表商品的相应映射关系。其中参数_f_NCF包含着一系列关于如何使两个向量_pu与_qi充分互动及相互影响的具体设定。该函数_f_NCF通过充分交互及相互影响机制使得两个向量_pu与_qi能够动态地关联起来，并从而能够为给定的一对（用户, 商品）提供相应的评分。值得注意的是不仅能够实现这一交互功能而且还能够通过多层感知机（MLP）模型来模拟类似的关联机制

矩阵分解（Matrix Factorization, MF）是一种普遍认可的推荐算法，在众多研究文献中得到了深入探讨。该方法通过引入神经网络技术对传统的矩阵分解进行了扩展与改进，在实际应用中展现出更强的表现力。在此框架下定义的神经广义矩阵分解（Generalized Matrix Factorization, GMF）层能够有效地捕捉数据中的复杂非线性关系，并将其转化为低维表示形式：

其中权重参数W∈ℝ^d×k, U∈ℝ^n×k, V∈ℝ^m×k分别代表用户与物品嵌入空间中的基向量集合；σ(⋅)表示激活函数；b_u,b_v分别代表用户偏置项与物品偏置项；偏置项b∈ℝ用于调整整体评分偏移量

ϕ GMF(pu , qi)=pu ◦ qi

式中，符号◦表示向量的元素级别点积。

在多模态深度学习框架内，基于两条路径构建用户与商品的模型方法已被广泛应用于该领域。进而，在多层感知机交互层中，请详细阐述矩阵拼接的具体实现步骤：

接着，在经过拼接后得到的新向量 z 上应用标准多层感知机模型来提取用户与商品潜在特征之间的交互关系。这不仅增强了模型的高度灵活性和非线性能力，同时也更加有效地捕捉到了用户与商品之间复杂而深入的交互信息。

式中， Wx 、 bx 和 ax 分别第 x 层感知机中的权重矩阵、偏置矩阵和激活函数。

截至目前为止，在推荐系统中已经提出了两种交互表示方法：一种是基于广义矩阵分解模型导出的交互向量 ϕ GMF；另一种则是通过多层感知机模型获得的交互向量 ϕ MLP；在此基础上我们提出了一种融合方案：

那么神经协同过滤方法中最终的损失函数可以描述为

在式中

（2）基于知识增强的模型。由于神经协同过滤算法通常依赖于商品向量作为基础，在其中引入了服务向量进行知识增强。这些方法类似于上述所述的知识信息融合方法。具体而言，在每一对（用户, 商品）中

长度为2的 k-维服务向量序列，并将其对应位置上的三元组查询模块服务向量与关系查询模块服务向量进行融合之后，并进行平均池化操作：

随后，在多层感知机中进行了向量 S PKGM的整合，并由此得到的向量 z 1即为三个原始向量进行拼接后的结果：

而神经协同过滤算法框架的其他部分不变，具体可以参看图7-13。

（3）实验与案例分析。基于淘宝真实交易数据样本构建的数据集进行测试分析，在表7-7中详细列出了商品推荐任务的相关数据信息，涉及20,000多个用户及3万多种商品，并共包含440,000条用户的商品互动记录。为了保证数据分析的有效性，在构建数据集时采取了严格抽样方法，确保每个用户的互动记录至少达10条以上

表7-7 商品推荐任务数据集

基于所选数据集展开实验研究，在推荐系统性能评价方面采用了"留一法"作为核心评估指标。具体而言，在实验中针对每位用户将其最近的一次交互行为作为测试基准，并将其余行为定义为训练集基础。在测试阶段中随机抽取100个未参与过交互的负样本实例，并将这100个负样本与真实的正样本进行排序比较。通过这种排序方式统计每位用户的排名前_k_个命中率（Hit Ratio）以及归一化累计增益（Normalized Discounted Cumulative Gain）等关键指标，并计算这些指标在所有测试用户的平均值作为最终的系统性能评估结果。其中_k_取值范围限定为{1,3,5,10,30}进行多维度性能考察

我们从每个用户的交互数据中随机提取一个正样本作为验证集，并旨在确定模型的最佳超参数组合。在广义矩阵分解层中，默认设置为8维向量表示；而多层感知机层采用32维向量表示以捕捉更复杂的特征关系。对于基准模型而言，在其三个隐含层中分别采用32-16-8维结构；而对于知识增强模型，则是在原有基础上增加了额外的特征提取模块，并通过最小化损失函数进行优化学习。值得注意的是，在广义矩阵分解层和多层感知机层中，默认对用户的嵌入向量施加了L2正则化约束，并选择系数为0.001以防止过拟合现象的发生；同时将学习率设定为较低的0.0001水平以确保模型收敛稳定性。预测阶段使用16维输出向量进行最终结果表征，并将其构造为两个低维嵌入向量拼接而成的形式（即广义矩阵分解输出与多层感知机输出的结合）。实验中采用了负采样比例4:1的比例策略（即每个正样本选取4个负样本作为背景噪声），这种设计既保证了计算效率又不会显著影响模型性能表现；此外，在知识增强模型构建过程中，默认采用了非预训练版本的神经协同过滤框架结构以避免引入外部预训练权重信息带来的潜在偏差

如表7-8所示，在表中定义了三种不同的神经协同过滤模型：带有NCFPKGM-T标识的模型仅通过加入基于预训练的知识图谱三元组查询向量实现了知识增强；而具有NCFPKGM-R标识的模型则仅采用关系型查询的服务向量特征进行知识辅助；最后以NCFPKGM-all标识的模型则是综合运用了上述两种不同类型的查询服务向量进行知识辅助。

表7-8 商品推荐任务的实验结果

从实验数据可以看出：首先，在各项评估指标上各知识增强模型均显示出了显著的优势。具体而言，在点击率指标上的平均提升幅度达到了0.37%，而在NDCG指标上的平均提升幅度则为0.0023%。对于NCFPKGM-R模型而言，在点击率指标上的平均提升幅度则达到了3.66%，而在NDCG指标上的平均提升幅度则为0.0343%。此外，在综合评分方面的平均提升幅度同样显示出显著的优势。这些提升结果进一步验证了预训练知识增强模型的有效性及其在提供超越用户-商品交互所能提取的信息方面所具有的优势

其次,NCFPKGM-R模型表现出更好的效果,相较于NCFPKGM-T模型。可以看出,预训练模型所提取的不同特征各有侧重。因此，在商品推荐任务中,NCFPKGM-R模型所提取的特征相较于NCFPKGM-T模型更为有用,这可能源于当描绘用户与商品交互时,属性关系通常比属性实体更为有效

7.4.4 基于商品知识预训练的实体识别

随着电商服务如导购、推荐等业务场景逐渐成熟完善，在这一背景下，“新制造”（如C2M）作为一种新兴方向逐渐受到行业关注，并在电商领域得到广泛应用和发展机会。在这一过程中，“发现商品趋势与热点”的问题成为商品知识图谱构建中的核心挑战之一。具体而言，“基于商品趋势与热点的挖掘”问题本质上可以被归结为一种实体识别任务：给定标识符集合_s_ =<a 1, a 2, ..., aN >, 该任务的目标是识别出一个三元组<Is, Ie, t> ，其中_Is_ 和_Ie_分别表示命名实体在序列_s_中的起始索引及结束索引,_t_则代表具体的预定义实体类型（如当前市场上的主要趋势类型）。为了使这一任务结果更加丰富全面，在实际应用中需要尽可能覆盖到市场上所有可能的趋势与热点类型：这需要从数据资源和算法方法两个维度进行深入探索与优化设计。在数据资源方面, 应尽可能多地收集整合站内外相关商品信息；在算法方法方面, 可以结合新词发现技术与命名实体识别方法相结合的方式展开探索, 这两种方法各具特色但也存在相互补充的可能性。鉴于本节内容主要聚焦于知识图谱预训练阶段的技术探讨, 因此在此阶段主要介绍并讨论基于命名实体识别的技术方案及其应用效果分析

基于命名实体识别的技术框架主要面临两个关键挑战：其一是在缺乏高质量标注数据的情况下,我们仅能依赖现有的标准化商品属性词库进行基础构建,但难以获取充足的高质量标注语料；其二是如何有效提高该模型在复杂场景下的准确度,特别是对未知实体（OOV）的有效识别能力。由于当前市场存在不断变化的新颖产品与服务,因此这些新趋势往往超出了现有训练样本的覆盖范围

对于第一点来说，在平台内部的数据资源中主要依赖于远程监督机制来完成训练语料库的构建。通过将商品标准类目属性融入文本分析过程来构建训练语料库后，在平台内部的数据资源中经过校验后的匹配效果较为理想。针对外部舆论数据而言，则需要同时利用产品词表和商品属性来进行双重匹配校验以确保准确性

基于远程监督构建命名实体识别训练语料时会遇到漏标注与误标注问题。其中漏标注会导致模型召回率显著下降，并表现为模型难以自主发现新实体；未见于词典的实体被错误标记为O类情况较为普遍从而显著降低了模型的召回率。当一个实体完全包含另一个时互惠包含关系可能导致误标进而造成标注边界错误如举例如下：当一个实体完全包含另一个时互惠包含关系可能导致误标进而造成标注边界错误如举例如下：当一个实体完全包含另一个时互惠包含关系可能导致误标进而造成标注边界错误

解决上述第二个问题的主要方案是局部监督学习或半监督学习。

局部监督学习的机制是通过词典对齐文本并赋予其B、I等标签之后剩余词汇不直接设置为O而被标记为unkown即未知的情况发生相对应地在相应的调整下命名实体识别模型的CRF损失函数被优化目标从最大化最优一条标记路径的概率更新为考虑所有unkown位置可设为B、I或O的各种可能路径的概率总和如图7-16[158]所示

图7-16 局部监督学习方法

一般情况下，在进行了词典的初步标注后发现，在实际应用中存在以下问题：实体标签B和I的比例较低而未知实体（unk）的比例较高。这种状况将会导致局部监督学习中损失函数的分子路径过多从而影响模型的学习速度与效果为此，在进行了词典的初步标注后可以通过以下几种方法减少未知实体数量：例如可以通过引入停用词列表将部分未知实体标记为O标签；或者采用交叉验证的方法将部分未知实体标记为B-I-O形式

半监督学习属于机器学习领域中的一个问题类别，在这种情况下假设训练集中仅包含正样本（positive）与未标记样本（unlabelled），而不包含负样本（negative）。在这种设定下需要构建出有效的分类界面。对应于远程监督下的命名实体识别任务中，请注意以下几点：被词典标注为BI的位置应视为正样本；而对于无法通过词典进行匹配确定具体标签状态的位置，则被视为未标记状态；这种情况下的对象自然就是未标记样本。利用这些训练数据能够构建出有效的命名实体识别模型。这种方法的优点在于它避免了将漏标位置直接归为O标签所带来的错误惩罚问题；因此能够显著提升召回率水平。参考论文 Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning ，这里使用的是bnPU（bounded non-negative Positive-Unlabelled Learning），即相对于BERT-CRF模型而言采用了不同的损失函数设计，在这种情况下采用Bert-bnPU模型进行实践研究。

如图7-17所示的部分输出结果表明：相较于CRF Loss，在识别相同文本时能显著提高实体识别数量（D列为基于CRF-Loss的识别结果；E列为基于bn-PU-Loss的识别结果）。然而，在发现的新标签中仍存在一定比例的误识案例；通常需要通过特定的后处理手段来优化其识别效果：包括但不限于对组合词进行拆分、确定词语边界等操作。目前该模型已在多个实际应用场景中得到应用

图7-17 部分输出结果

其一般形式为 $L(w) = -\sum_{i=1}^n \log p_w(y^{(i)}|x^{(i)})$ ；局部标注下的CRF Loss分子则涵盖所有可能路径。

。

7.4.5 基于商品知识预训练的关系抽取与属性补齐

知识图谱通常由实体及其关联组成。
通过关系抽取技术能够进一步完善这些连接。
现有的商品知识图谱已构建了基础数据体系。
为了拓展现有商品知识图谱的空间并使其更加完善而提出概念图谱技术路径。
其核心技术模块主要包括三个关键环节：
概念发现环节主要用于识别潜在的概念；
概念关系识别环节则专注于解析各概念间的相互关联；
最后一个环节则是实现对识别成果的实际应用部署。
本节将深入探讨基于这种架构下相关技术和具体实现方案。

关系抽取作为一种关键的技术，在构建知识图谱的过程中发挥着不可替代的作用，并在多种自然语言处理任务中展现出显著的应用价值。相比于复杂的开放式关系抽取方法，在概念图谱构建过程中，我们定义的关系抽取过程如下：已知给定头尾实体及其对应的关系种类，在特定语境下判断该头尾实体间是否存在对应的关系。这一过程的形式化描述可表示为函数_F_（C ， h ， r ， t ）∈ {0,1}：基于给定上下文_C_ 的情况下，函数_F_判断给定的概念_h_与_t_之间是否存在_r_关系的存在性标记。其中标记值1表示存在_r_关系而标记值0则表示不存在_r_关系。此外，在这一过程中_h_ 和_t_-域限定于{产品词、场景、人群}集合内而_r_-域限定于{存在、不存在}两种状态。传统的关系三元组模型通常基于头尾实体和其间的单一关系进行建模，在此基础之上我们尝试引入多元化的三元组模型以挖掘细分市场中的关联性（例如属性值与品类词之间的关联如性感连衣裙）。基于上述两步式的概念抽取流程首先需从包含头尾实体的语句中提取出相关的信息片段随后根据语句特征判断其对应的头尾实体间是否存在具体的关系连接。在此过程中主要可分为两类方法即基于序列建模的方法以及基于依存语法分析的方法。

基于序列的方法主要依赖于句子中的顺序信息以及句法语法规则；当前主要地利用了深度学习以及预训练方法；接下来将分别阐述。

1.基于序列的关系抽取方法：ReBERT

在预训练的发展过程中，在2019年期间的研究者们首次将BERT模型应用到关系抽取领域中，并在此基础上引入标记位以区分头实体与尾实体的类型；如图7-18所示即为BERT模型的整体结构。

图7-18 BERT模型结构

传统的现代关系抽取模型主要将头尾实体融入到模型表示中。其创新之处体现在两个方面：第一个创新点是采用了最新的预训练语言模型BERT；第二个创新点不仅包含了对句子Token序列语义信息的提取，并且在头尾实体位置附加了特定标记位以实现对应实体特征的有效捕捉；通过这些特殊标记位能够获得被标注实体的具体表示信息，并将其与整个句子的信息进行融合应用以完成分类任务。

2.基于依存的关系抽取方法

基于依赖关系抽取的方法不仅能够利用文本序列信息，并且也会考虑到这些依赖关系作为介绍重点。

GCN主要通过将依存关系嵌入到模型架构中实现信息传递机制。在该过程中, 每个词语的向量基于其邻居节点进行更新, 同时邻接矩阵则基于依存句法树进行构建, 如图7-19所示展示了完整的GCN模型结构

图7-19 GCN模型结构

虽然在GCN架构中输入向量缺乏上下文与位置信息这一缺陷存在局限性, 但可以通过与RNN或者预训练语言模型（如BERT）进行联合训练的方式加以弥补, 从而将位置信息融入神经网络. 相较于传统的全连接神经网络通过全局聚合所有节点特征实现整体表征学习的方式, 在GCN架构中, 则仅考虑与当前节点直接相连的邻居节点特征进行信息聚合. 具体而言, 公式推导如下: 设_Aij_表示邻接矩阵元素, _hj_代表第_j_个节点对应的特征向量, 在第_l_层迭代过程中, 每个节点都会根据其邻居所具有的特征信息不断更新自身状态. 最终经过_L_层深度迭代后, 将每个三元组对应的特征表示通过多层感知机进一步映射并整合至最终分类任务中完成预测.

（2）AGGCN。（可以看出）GCN对当前节点的权重处理采用二进制形式：相邻节点标记为1而非相邻节点标记为0。（随后研究者提出了一种改进型模型AGHC-CNN）其核心在于通过注意力机制动态学习各节点之间的连接关系（如图7-20所示）这种改进使模型能够更好地捕捉复杂网络中的潜在关联性

图7-20 AGGCN模型结构

（3）实验与案例分析方面。我们开发了一种包含闭合域三大关系抽取算法的系统架构——ReBERT、GCN和AGGCN，并基于外包标注的数据集对模型进行了训练，在随后的工作流程中采用了主动学习策略对后续标注工作进行了指导。相关实验数据详见表7-9

表7-9 相关实验数据

基于此可以抽取到的数据如图7-21所示。

在宝宝早教场景中，积木、益智拼板以及早教教具等商品被视为必需品。由于二元关系存在一定的局限性，在产品名称中添加属性值能够进一步提升其应用效果。因此，在产品名称中添加属性值能够进一步提升其应用效果。从而实现了多元化的数据抽取能力。例如，“材质：竹炭牙刷适合去口臭”（如图7-22所示）。

同时进行了基于依存句法分析方法与ReVerb框架下的开放关系抽取机制的结合运用，在此过程中成功获取了更为丰富的三元组数据样本，并如图7-23所示展示了实验结果

图7-21 抽取到的数据

图7-22 多元关系抽取

图7-23 抽取更加丰富的三元组数据

由概念及其相互关联组成的概念知识图谱是人工智能领域的重要研究对象。在分析现有知识体系时，明确概念间存在的关联性属于发现现有知识结构的关键环节。本文系统性地探讨并实现了基于序列模式与依赖语法两种不同方法，并对当前最前沿的关系抽取技术进行了深入研究与验证。归纳整理了数量级的二元与多元三元组数据，并提炼出若干具有开放性的三元组信息。具体数据规模如表7-10所示。

图7-10 开放式三元组知识数据规模

7.4.6 基于商品知识预训练的标题生成

商品标题是电商平台中卖家与买家沟通的重要媒介，在电商环境下卖家不仅致力于吸引买家的注意力以提升商品可见性同时也可能采取其他策略以增加曝光机会。然而由于商品原始标题通常长度较长（平均约为30个汉字）在结果页面上无法完全呈现因此消费者只能通过点击进入详情页后才可查看完整的标题内容这样既降低了用户体验又增加了平台运营成本成为一个亟待解决的问题为此研究团队提出了利用算法构建深度学习模型并将其应用于阿里巴巴生态场景中的短标签生成技术从而优化移动端展示效果并取得了显著成效该方法主要基于两种方式即生成方式与提取方式其中业务目标在于从原有标题中精准提取特定关键词形成新的简短标签

每个商品的标题都是一个有序单词排列组合，在数学上表示为_t_ = [_w₁, _w₂, _w₃, …, wn]的形式。
采用阿里巴巴内部开发的分词工具对这些标题进行处理，在获得分词结果后，
该工具不仅能够完成分词任务，并且还会标注每个词语所属类别，
从而生成相应的词语序列供后续分析使用。

接着对于 t ′中的每一个词汇都需要进行二分法分类处理判断是否应保留该词如图7-24所示在标题抽取任务中规定短标题中必须避免出现品牌名称因此在构建模型时将词语的属性特征作为重要变量加以应用

图7-24 标题分词示例

（1）模型架构设计。如图7-25所示，在构建输入层时需要考虑两个方面：一是引入一个表示当前词语类别的特征；二是将该特征与Token嵌入、Segment嵌入及位置编码进行融合。需要注意的是，在分词工具接口返回结果中需避免包含品牌词汇，并且在处理完分词结果后需能够获取当前词语所属类别信息。为了实现这一目标，在设计Transformer编码器时应确保其具备足够的上下文感知能力，并通过多头注意力机制捕获长距离依赖关系。此外还需要考虑计算资源限制以及如何平衡准确性与效率之间的关系以达到最佳性能表现

图7-25 模型结构

（2）实验与案例分析。如何判断一个短标题是否合理？其实这是一项主观性较强且有一定难度的任务。参考图7-26所示的部分输出结果可以看出：模型能够有效地过滤掉品牌等非关键信息，并且生成的短标题在语序上也比较通顺。目前该模型已在业务场景中投入应用并取得一定成效。

图7-26 部分输出结果

7.5 总结与展望

本章详细阐述了知识预训练的相关领域，并围绕阿里巴巴电商场景的商品知识图谱展开了多项研究与探讨。

参考文献

[1] 袁鼎荣，钟宁，张师超.文本信息处理研究述评[J].计算机科学，2011（2）：15-19.

[2] 赵琦教授, 刘建华学者, 刘建华学者.基于ACE会议研究的信息提取技术发展脉络[J].现代图书情报领域的研究, 2008(3):18-23.

An overview of hidden Markov models and their selected applications within the field of speech recognition was presented by RABINER L R in the year 1989. It appeared in Issue 2, Volume 77 of the journal Proceedings of the IEEE, covering pages 257 to 286.

[4] Lafferty J, McCallum A, Pereira F C N. Conditionally Random Fields: A Probabilistic Framework for Segmenting and Labeling Sequence Data[J]. 2001.

[5] MIKOLOV T, SUTSKEVER I, CHEN K, and others. Distributed vector representations for words and phrases along with their compositionality[C]//Advances in neural information processing systems, 2013: 3111-3119.

[6] HUANG Z, XU W, YU K. 基于双向LSTM-CRF的序列标注模型[J]. arXiv预印本arXiv:1508.01991, 2015.

[7] G. Lample, M. Ballerini, S. Subramanian et al., Neural Architectures in Named Entity Recognition[C]//Proceedings of NAACL-HLT, 2016: 260-270.

[8] MA X, HOVY E. 全程基于双向LSTM-CNNs-CRF的序列标签化[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers), 2016: 1064-1074.

[9] PENNINGTON J, SOCHER R, MANNING C D.Glove: Global vectors for word representation[C]//Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 2014: 1532-1543.

[10] PETERS M E,NEUMANN M, LYYER M, et al. Deep contextualized word representations[C]//Proceedings of NAACL-HLT, 2018: 2227-2237.

[11] HOWARD J, RUDER S. Fine-tuning of a Universal Language Model for Text Classification[C]//Proceedings of the Annual Meeting held in 2018 (Volume 1:Long Papers), 2018: 328-339.

[12] DEVLIN J, CHANG M W, LEE K, et al. Advanced Deep Bidirectional Transformers: A Pre-training Phase for Language comprehension[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 2019: 4171-4186.

[13] KOLITSAS N, GANEA O E, HOFMANN T. End-to-end neural entity linking[J]. arXiv preprint arXiv:1808.07699, 2018.

[14] RATINOV L, ROTH D, DOWNEY D, et al. Local and global algorithms for disambiguation to wikipedia[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 1375-1384.

[15] TANEVA B, CHENG T, CHAKRABARTI K, et al. Extracting acronym expansions along with their meanings based on query click logs[C]//Proceedings from the 2013 22nd International Conference on World Wide Web: 1261-1272.

[16] YAMADA I, SHINDO H, TAKEDA H, and others. Developing distributed representation models for textual and entity-level knowledge within a knowledge repository[J]. The Transactions of the ACL, 2017, 5: 397-411.

[17] LE P, TITOV I. 提高实体识别效能的方法在于利用未标注文档[J]. arXiv预印本：1906.01250, 2019.

[18] LOGESWARAN L, CHANG M W, LEE K, et al. Based on entity descriptions understanding for zero-sample entity linking[J]. arXIV preprint arXIV:1906.07348, 2019.

[19] LE P, TITOV I. 远距离学习在实体识别中实现自动噪声检测[J]. arXiv预印本arXiv:1905.07189, 2019.

[20] CUCERZAN S. An extensive-scale approach to named entity discrimination, which relies upon data from Wikipedia, appearing in the proceedings of the 2007 conference: EMNLP-CoNLL workshop, pages 708-716.

[21] CHEN Z, TAMANG S, LEE A, et al. City University of New York-BLENDER TAC-KBP2010 Entity Matching and Information Filling System Design[C]//TAC, 2010.

[22] IKUYA Y, HIROYUK S, HIDEAKI T, et al. Acquiring distributed representations of texts and entities through extensive learning from a comprehensive knowledge base has been demonstrated in this study.

[23] BROSCHEIT S. Examining Entity Information within the Pre-trained language model BERT through a straightforward neural end-to-end entity linking mechanism[C]//Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL), 2019: 677-685.

This research investigates the association of key concepts with a knowledge base by enhancing query retrieval techniques. The paper presents findings from the EMNLP conference proceedings in 2011, spanning pages 804 to 813.

[25] RAIMAN J R, RAIMAN O M. Deeptype:multilingual entity linking by neural type system evolution[C]//Thirty-Second AAAI Conference on Artificial Intelligence, 2018.

[26] SHEN L, JOSHI A K. 被感知器实现排序与再排序[J]. Machine Learning, 2005, 60(1-3): 73-96.

[27] CAO Z等. 学习排序方法:从对分法到列表法[C]//论文集 of the 24th international conference on Machine learning, 2007: 129-136.

A proposed method is keywords intersection relevance for entity disambiguation.

This study identifies the semantic similarities between entities and links them using convolutional neural networks as a method to capture the relationships within large-scale datasets.

Bridging Text and Knowledge through the learning of Multi-Prototype Entity-mention Embedding at the Meeting of the Association for Computational Linguistics in 2017, which covers pages 1623 to 1633

[31] GANEA O E and HOFMANN T advanced the task of entity deconflicting through the integration of local neural attention mechanisms[J]. arXiv preprint arXiv:1704.04920, 2017.

[32] HE Z, LIU S, LI M, et al. Learning entity representation for entity disambiguation[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2:Short Papers), 2013: 30-34.

Enhancing entity linkages through the construction of underlying relationships between mentions is essential, as demonstrated in LE P and TITOV I's research (LE P and TITOV I, 2018).

[34] MULANG I O 等人，在《基于上下文的注意力神经网络在Wikidata知识图谱上的实体链接研究》一文中提出了...

[35] Durrett G and Klein D. An integrated framework for entity study: Coreference classification and connection[J]. Transactions of the association for computational linguistics, 2014, 2: 477-490.

A fully integrated neural-based entity linking approach is presented in this study [J]. The methodology leverages the end-to-end framework for efficient and accurate processing of textual data.

[37] Martins Pedro Henrique, Marinho Zarif, Martins Afonso Fontes. Co-supervised learning of named entity recognition and entity linking[J]. arXIV preprint arXIV:1907.08243, 2019.

[38] KAMBHATLA N.[Association for Computational Linguistics the ACL 2004-Barcelona, Spain (2004.07.21-2004.07.26)] Proceedings of the ACL 2004 on Interactive poster and demonstration sessions, Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations[J]. 2004: 22.

[39] ZHOU G, SU J, ZHANG J, et al. Investigating Diverse Knowledge in Relation Extraction[C]//ACL 2005, 43rd Annual Meeting of the Association for Computational Linguistics, 2005.

该研究采用核方法进行关系抽取，并发表于《机器学习研究》期刊中

[41] CULOTTA A, SORENSEN J S. Dependency Tree Kernels for Relation Extraction[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, 2004.

[42] BUNESCU R, MOONEY R. A least-cost dependency-based kernel for relation identification[C]// Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2005.

该文提出了一种综合性的Kernel方法用于提取具有平面和结构化特性的实体间关系[C]//ACL 2006会议记录中包含了第21届国际计算语言学会议与第44届美国计算语言学学会年会的论文集。

[44] ZHOU G D, ZHANG M, JI D H, et al. 基于树核的方法进行关系抽取，并结合包含语义敏感性和结构化解析树信息。EMNLP-CoNLL'2007, 2007: 728-736.

ZENG D J and others presented a method for relation categorization via a convolutional deep learning model at the 25th International Conference on Computational Linguistics: Research Articles (pages 2335-2344).

CICERO NOGUEIRA DOS S et al., XIANG B, ZHOU B W. Identifying relation orders using convolutional neural networks. ACL, 2015.

[47] ZHOU P, SHI W, TIAN J等. 基于注意力机制的双向长短期记忆网络用于关系分类. 《计算语言学学会第54届年度会议论文集》（Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics）2016卷：第207页.

This research paper presents a novel method for joint entity and relation extraction using a hybrid neural network architecture. The study was published in the journal Neurocomputing in the year 2017, under volume number 257, spanning pages 1 to 8.

[49] MIWA M, BANSAL M. 基于LSTM的方法实现全面的关系抽取[J]. 2016.

Collective Information Extraction Methods Relying on an Innovative tagging Mechanism for Entity and Relation Identification[J]. 2017

Contributors MIKE M, STEVEN B, RION S et al. explored the technique of distant supervision for relation extraction without labeled data[C]. This work was presented at ACL 2009 and the IJCNLP proceedings.

[52] DIETTERICH T G, LATHROP R H, LOZANO-PÉREZ T. Addressing the challenge of distinguishing between multiple instances using axis-aligned rectangular regions[J]. Artificial intelligence, 1997, 89(1-2): 31-71.

Zeng Di, Liu Kai, Chen Yong等基于分段卷积神经网络的方法用于远监督关系抽取[C]//实证自然语言处理会议, 2015: 1753-1762

[54] LIN Y, SHEN S, LIU Z, et al. Neuro-based Relation Extraction with Instance-level Selective Attention[C]. Annual Conference of the Association for Computational Linguistics (ACL), 2016: 2124-2133.

基于强化学习的方法用于从噪声数据中进行关系分类[C]

BRIN S. Extracting information about key data patterns and relational structures of the WWW[J]. Lecture notes in computer science, 1998, 1590: 172-183.

[57] 漆桂林，高桓，吴天星.知识图谱研究进展[J].情报工程，2017，3（1）：004-025.

[58] Gravano L., AGichtein E. Snowball: A System for Extracting Relationships from Large Plain Text Collections[C]//Proceedings of the ACM Conference on Digital Libraries, ACM, 2000, pages 85–94.

[59] CARLSON A, BETTERIDGE J, KISIEL B, et al. Toward developing architectures for endless language learning systems.[C]//AAAI 2010, 2010: 529-573.

[60] Mitchell T, Fredkin E. Perpetual Language Learning [M]//Perpetual Language Learning. Alphascript Publishing, 2014.

[61] BOLLEGA A.D.T., MATSUO.Y.,Ishizuka.M. Measuring the similarity of implicit semantic relations from the World Wide Web[J]. Madrid! track semantic/dataWeb, 2009: 651-660.

[62] BOLLEGRO S.A.D., MATSUO Y., ISHIYUKA M. Relational Duality serves as an unsupervised mechanism for extracting semantic relationships among entities on the web (C) published in the proceedings of the International Conference on World Wide Web (WWW) in 2010, pages 151-160.

[63] BANKO M, CAFARELLA M, SODERLAND S, et al. Extracting open-source information from the web[C]. International Joint Conference on Artificial Intelligence, 2007: 2670-2676.

改写说明

开发一种从维基百科中提取信息的方法

[66] M. SCHMITZ, S. SODERLAND, R. BART等. 近现代开语言学习方法在数据检索中的应用[C]. 朱梅, 刘伟译. 人工智能领域中的实证方法: 第19届国际 Joint Conference on Empirical Methods in Natural Language Processing (EMNLP)论文集, 北京: 科学出版社, 2012: 523-534.

[67] YAHYA M, WHANG S E, GUPTA R, et al. ReNoun: Fact Extraction for Nominal Attributes[C]. empirical methods in natural language processing, 2014: 325-335.

[68] FADER A, Soderland S, Etzion O, et al. Identifying Relations for Open Information Extraction: A Methodology Based on Empirical Approaches in Natural Language Processing[C]. Empirical Methods in Natural Language Processing (EMNLP), 2011: 1535-1545.

[69] ALAN A, ALEXANDER L. Chapter KrakeN:N-ary Facts in Open Infor-mation Extraction, Proceedings of the Joint Workshop on Automatic Knowledge Base Construction and Web-scale Knowledge Extraction (AKBC-WEKEX) Association for Computational Linguistics, 2012: 52-56.

[70] M. S. MESQUITA, J. SCHMIDEK, D. BARBOSA, et al. 开放关系抽取的效能与效率[C]. empirical methods in natural language processing, 2013: 447-457.

[71] STANOVSKY G, DAGAN I. Creating a Large Benchmark for Open Information Extraction[C]. empirical methods in natural language processing, 2016: 2300-2305.

A study titled "Universal Decompositional Semantics within Universal Dependencies" presented at the conference "Empirical approaches in natural language processing" in 2016.

[73] CORRO L D, GEMULLA R. ClausIE: 基于短语的信息抽取[J]. the web conference, 2013: 355-366.

Exploiting linguistic structure to enable the extraction of open-domain information[C].International Joint Conference of Natural Language Processing Societies, 2015: 344-354.

[75] MAUSAM M. Open information extraction systems and downstream applications[C].international joint conference on artificial intelligence, 2016: 4074-4077.

[76] SAHA S, PAL H.ASAH Saha and Pal propose a method based on numerical open information bootstrapping to achieve their goals. [C] // Proceedings of the Association for Computational Linguistics. Meeting of the Association for Computational Linguistics, 2017: 317-323.

An Opening Approach to Information Extraction Using Context-Based Sentence-Level Decomposition

[78] GASHTEOVSKI K, GEMULLA R, Corro L D, et al. MinIE: A system for reducing information in open information extraction. In the proceedings of empirical methods in natural language processing, 2017, pages 2620-2630.

[79] D Y, H J.Unsupervised的人名填充基于图挖掘的方法[C]. 《计算语言学会议录》，第54届年会：44-53.

[80] JR Q. Logic Definitions from Relations[J]. Machine Learning, 1990, 5(3): 239-266.

Association Rule Learning with Sparse or Incomplete Data Sources in an Ontology-Based Knowledge Repository.

Authors LUIS G, CHRISTINA T, KATJA H, et al. Efficient Extraction of Rules from Ontological Knowledge Bases using Amie+. The Very Large Data Base Journal, 2015: 1-24.

[83] NI L, TOM M, WILLIAM W C. 随机游走推理与学习在大规模知识库中的应用。Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2011: 529-539.

[84] NI L, WILLIAM W C. 采用了路径受限随机游走方法进行关系检索 Machining Learing 2010 81(1) 53-67

[85] ARVIND N, BENJAMIN R, ANDREW M. Utilizing Compositional Vector Space Models for Addressing Knowledge Base Completion Tasks. Proceedings of the Association for Computational Linguistics’s 2015 meeting.

该研究组提出了高效且富有表达力的方法用于知识库完成，并在计算语言学协会的会议上进行了展示。

该研究团队在Proceedings of the 2014 EMNLP会议中发表了论文《采用向量空间相似性进行随机游走推理》

作者WANG Q及其合著者在2016年的《会议论文集：计算语言学协会第54届年会》中提出了“关联路径排序”方法用于“知识库完成”。

作者WANG Q及其合著者在2016年的《会议论文集：计算语言学协会第54届年会》中提出了"关联路径排序"方法用于"知识库完成"。

[89] SAHISNU M, BING L. Context-based Scoring Mechanism for Knowledge Graph Completion. The Twenty-Sixth IJCAI, 2017.

[90] YANG B SH, YIH W, HE X D, et al. Embedding Entities and Relations for Learning and Inference in Knowledge Bases. Proceedings of ICLR, 2015.

[91] ZHANG W, PAUDEL B, WANG L, et al. Repeatedly acquiring embeddings and inference rules for knowledge graph inference. In The World Wide Web Conference, 2019b, 2366-2377. ACM.

[92] ZHANG N, DENG S, SUN Z, et al. Long-tail relation extraction via knowledge graph embeddings and graph convolution networks[J]. NAACL, 2019.

Relation-based Adversarial Learning Network for Knowledge Graph Completion in Scarse Resource Scenarios

基于混合注意力机制的 prototype 网络用于解决带有噪声的少样本关系分类问题（如文献[C]所示）。

[95] YU H, ZHANG N, DENG S, et al. Bridging Text and Knowledge with Multi-Prototype Embedding for Few-Shot Relational Triple Extraction[J]. COLING, 2020.

[96] Deng S, Zhang N, Kang J, et al. A Meta-Learning Framework with Dynamic Memory-Based Prototypical Networks for Few-Shot Event Detection in the Domain of Few-Shot Event Detection[C]//Proceedings of the 13th International Conference on Web Search and Data Mining, 2020: 151-159.

[97] S. SOARES, N. FitzGerald, J. Ling and their colleagues identify gaps in embedding-based approaches for relational learning using distributional similarity as a key metric[J]. ACL, 2019.

This research investigates fine-tuned language models to address event identification and creation during the 57th Annual Meeting of the Association for Computational Linguistics, held in 2019.

该研究通过提取判别性和泛化性知识来实现事件识别的任务，在第57届年会上发表了一篇论文。

[100] TONG M, XU B, WANG S, et al. Improving event detection via open-domain trigger knowledge[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020: 5887-5897.

[101] LI J, WANG R, ZHANG N, et al. Logic-guided Semantic Representation Learning for Zero-Shot Relation Classification[J]. COLING, 2020.

[102] DU X, CARDIE C. Event Identification by Responding to Nearly Natural Questions[J]. EMNLP, 2020.

[103] Liu J and others. Event Extraction as Machine Reading Comprehension is considered[C]//The Proceeding of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020: 1641-1651.

This paper builds upon previous work to advance event graph schema construction through the development of a novel path-based language modeling framework.

[105] Wang L, Cao Z, de Melo G et al.通过多级注意力卷积神经网络进行关系分类[C].第22届美国计算机语言学会年会: 1298-1307.

YANG Y等. 远监督命名实体识别方法结合部分标注学习与强化学习[C]. 国际计算机语言学会议, 2018: 2159-2169.

[107] YANG Y, ZHANG M, CHEN W, et al. Antagonistic Learning Techniques for Chinese Named Entity Recognition Derived from Crowdsourced Annotated Data[J]. arXiv: Computation and Language, 2018.

[108] JR Q. Logic Definitions from Relations. Machine Learning, 1990, 5(3): 239-266.

[109] Luis Antonid G, Christina T, Katja H et al. Association Rule Mining When Evidence Is Incomplete within an Ontological Knowledge Base. Proceedings of the 22nd International Conference on World Wide Web, 2013: 413-422.

Contributors Luis G, Christina T, and Katja H conducted a study titled 'Efficient Extraction of Association Rules from Knowledge-Based Systems Using Amie+'. The VLDB Journal, 2015: 1-24.

[111] NI L, TOM M, WILLIAM W C. Random Walk Inference and Learning in a Large-Scale Knowledge Base. Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2011: 529-539.

[NL, Nathan L., William W. C.]. An approach for relational retrieval incorporating path-constrained random walks. Machine Learning, 2010, 81(1): 53–67.

[113] ARVIND N, BENJAMIN R, ANDREW M. Compositional Vector-Space Models for Knowledge-Based Completion. Proceedings of the Association for Computational Linguistics Meeting, 2015.

This paper presents a highly efficient and powerful approach to knowledge base construction by leveraging subgraph feature extraction techniques presented at the Association for Computational Linguistics meeting in 2015.

[115] MATT G, PARTHA T, JAYANT K, et al. Integrating Vector Space Similarity into Random Walk-based Inference over Knowledge Bases. Proceedings of the 2014 EMNLP Conference, 2014: 397-406.

WANG Q et al. 在第54届年会上发表于《Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics》中提出了"Knowledge Base Completion via Coupled Path Ranking"这一观点。他们在第54届年会上发表于《Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics》中提出了"Knowledge Base Completion via Coupled Path Ranking"这一观点。

This paper introduces a Context-sensitive Path Ranking Algorithm for Knowledge Base Inference. Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, 2017.

[118] BORDES A, USUNIER N, GARCIA-DURAN A, et al. Translating embedding representations to model multi-relational data[C]. In proceedings of: Proc. of the Advances in Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2013: 2787-2795.

A notable approach for computing word embeddings in the vector space is presented at the ICLR Workshop in 2013 by MIKOLOY T and others.

WANG Z and ZHANG J along with FENG J and others represented knowledge through hyperplane translations in their research paper titled "Knowledge graph embedding by translating on hyperplanes" presented at the 28th AAAI Conference on Artificial Intelligence held in Menlo Park in 2014. The paper appeared in the conference proceedings from pages 1112 to 1119.

[121] LIN Y, LIU Z, SUN M, et al. Learning entity and relation embeddings for knowledge graph completion. In: Proc. of the 29th AAAI Conf.on Artificial Intelligence. Menlo Park: AAAI, 2015: 2181-2187.

The method for knowledge graph embedding using a dynamic mapping matrix[C]. In: Proc. of the 53rd Annual Meeting of the Association for Computational Linguistics, 2015: 687-696.

[123] JI G, LIU K, HE S, et al. Knowledge graph completion with adaptive sparse transfer matrix[C]. In: Proc. of the 30th AAAI Conf.on Artificial Intelligence. Menlo Park: AAAI, 2016:985-991.

[124] FAN M及其合著者在《 Pacific亚洲语言信息与计算学会第28届年会上》上发表了关于基于转换的知识图谱嵌入及其关系映射性质的研究文章

JIA et al. present a locally adaptive translation method for enhancing knowledge graph embeddings in their research paper published in the Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence (Menlo Park, AAAI Press, 2016), detailing advancements in this innovative approach across pages 992–998.

The meaningful flowing of semantic knowledge graph embedding[C]. In proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics, 2015:84-94.

[127] WANG Z, LI J. Text-enhanced knowledge representation learning for knowledge graph[C]. IJCAI, AAAI Press, 2016.

XIAO H, HUANG M, ZHU X. From a single point to multiple dimensions: Knowledge graph embedding for precise link prediction[C]. In: Proc. of the 25th Int'l Joint Conf. on Artificial Intelligence. AAAI, 2016: 1315-1321.

[S. HE and others learned to represent knowledge graphs with Gaussian embeddings.] [Proceedings of the 24th International Conference on Information and Knowledge Management (CIKM), held in New York by ACM Press.] [In: Proc. of the 24th ACM Int'l Conf.on Information and Knowledge Management.] [New York: ACM Press, 2015: 623-632.]

[130] Xiao He, Huang Ming, Zhu Xin. 基于生成模型的知识图谱嵌入方法[C]. ACL, 2016.

[131] NICKEL M, TRESP V, KRIEGEL H P. 基于三元关系模型的集体学习方法[C]. 在第28届国际机器学习会议上发表于Proceedings of the 28th International Conference on Machine Learning. 出版地：纽约；出版者：ACM出版社；出版年份：2011；页码范围：809-816.

[132] YANG B SH, YIH W, HE X D, et al. Embedding entities and relations for learning and inference in knowledge bases[C]. In International Conference on Learning Representations, 2015.

[133] NICKEL M, ROSASCO L, POGGIO T.基于全息技术的知识图谱表示[C].第 thirtieth AAAI Conference on Artificial Intelligence, 2016.

In the Proc. of the 33rd International Conference on Machine Learning, held in New York by ACM Press in 2016, the authors introduced 'Complex embeddings for elementary link prediction' as their contribution.

[135] Yang B SH, Yih W, He X D et al. Learning to Represent Entity and Relation for Facilitating Learning and Inference in Knowledge Bases. Proceedings of ICLR, 2015.

[136] W. Zhang, B. Paudel, L. Wang et al., Iterative embedding and rule learning for knowledge graph reasoning capabilities. In proceedings of the World Wide Web Conference (WWW '19), pp. 2366-2377, New York City, USA: ACM Press, 2019.

[137] BRUNA J, ZAREMBA W, SZLAM A, et al. Spectral graph networks and locally connected graph neural networks on graphs. In the ICLR conference in 2014.

[138] DUVENAUD D K, MACLAURIN D,IPARRAGUIRRE J, et al. Convolutional networks on graphs for the purpose of learning molecular fingerprints were presented in the NIPS conference year 2015.

[139] DEFFERRARD M, BRESSON X,VANDERGHEYNST P. Convolution-based neural networks on graph structures with efficient localized spectral processing. In NIPS, 2016.

[140] KIPF T N, WELLING M.Semi-supervised classification with graph convolutional networks. In ICLR, 2017.

[141] YANG B, YIH W, HE X, et al. Embedding entities and relations for learning and inference in knowledge bases. arXiv preprint arXiv:1412.6575, 2014.

[142] ABU-EL-HAIJA S, KAPOOR A, PEROZZI B, et al. N-gcn: A multi-scale graph convolution approach for semi-supervised node classification at the MLG KDD Workshop in 2018.

[143] RAJARSHI D, ARVIND N, DAVID B, et al. Chains of reasoning over entities, relations, and text using recurrent neural networks. EACL, 2017.

该研究者在ICIR会议上发表了题为《Semi-Supervised Classification with Graph Convolutional Networks》的重要论文（第144号）

[145] The authors present a study on efficient graph convolutional neural networks utilizing localized spectral filtering techniques. They conducted their research at the annual conference on neural information processing systems in 2016.

MIKOLOV T等人在《机器学习与数据科学》期刊上发表的文章提出了一种在向量空间中成功估计单词表示的方法

[147] -Blei. D., -Ng. A., -Jordan. M.-该文提出了一种基于主题的概率模型——潜在狄利克雷分配模型（LDA），发表于《机器学习研究》期刊中（Journal of Machine Learning Research），年份为2003年

该研究提出了一种基于异构信息网络的个性化实体推荐方法，在第2014届国际互联网搜索与数据挖掘大会上发表。

ZHAO H等提出了一种基于图结构的异构信息网络中的推荐系统融合方案[C].该方案在第23届ACM SIGKDD国际知识发现与数据 mining大会上得以展示,时间是2017年

[150] Wang Q, Mao Z.D., Wang B, et al. Knowledge graph embedding: a comprehensive survey on methods and applications.[J]. Transactions on Knowledge and Data Engineering, 2017.

[151号] 布德斯·A、USUNIER·N、韦斯顿·J. 将嵌入进行转换以便建模多元关系数据[C]. 《神经信息处理系统进展》，2013年.

WANG Z, ZHANG J, FENG J 等人. 通过在超平面上进行转换的方法实现知识图谱嵌入[C]. 人工智能协会, 2014.

[153] LIN Y, LIU Z, SUN M, et al. Learning entity and relation embeddings for knowledge graph completion[C]. the Association for the Advance of Artificial Intelligence, 2015.

JI G, HE S, XU L, et al. Knowledge graph embedding using a dynamic mapping matrix[C]. Proceedings from the joint event held in conjunction with the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 2015.

[155] WANG H W, ZHANG F Z, XIE X et al. DKN: Advanced Knowledge-Oriented Structure for News Recommendation[C]. Proceedings of the WWW Conference, 2018.

WANG H W, ZHANG F Z, WANG J L, et al. Diffusing User Preferences within the Knowledge Graph toward Enhancing Recommender Systems[C]. The Proceedings of the 27th ACM International Conference on Information and Knowledge Management, 2018.

[157] WANG H W, ZHANG F Z, ZHAO M, et al. 基于知识图谱增强的多任务特征学习[C]. 第十九届万维网大会Proceedings, 2019.

该研究探讨了部分标记命名实体识别数据集的整合方法：连接实践与理论

全部评论 (0)

还没有任何评论哟~

知识图谱de构建与应用（七）：大规模知识图谱预训练

目录 7.1知识预训练概述 7.1.1预训练语言模型 7.1.2知识图谱中的结构化上下文信息 7.1.3基于知识增强的预训练模型 7.1.4预训练知识图谱模型与预训练语言模型的区别 7.2商品知识图谱...

知识图谱de构建与应用（一）：知识图谱概述

本章首先介绍工业场景下知识图谱的概况和分类，然后概括性地介绍知识图谱实践过程中的一些基本原则和方法，最后介绍建设、维护大规模知识图谱所需的系统，以及该系统相应的架构设计。

知识图谱de构建与应用（五）：知识推理

目录 5.1知识推理概述 5.1.1知识推理的作用 5.1.2专家系统与知识推理 5.1.3神经网络与知识推理 5.2基于符号逻辑的知识推理 5.2.1基于本体的知识推理方法 5.2.2基于规则的知识...

知识图谱de构建与应用（四）：知识获取

目录 4.1知识获取概述 4.1.1知识获取相关任务 4.1.2知识获取相关测评会议 4.2命名实体识别 4.2.1命名实体识别概览 4.2.2标注体系及常用数据集 4.2.3基于规则的命名实体识别 ...

知识图谱de构建与应用（三）：知识融合

本章首先介绍知识融合的定义、难点和流程，接着概括性地介绍本体对齐和实体对齐的常用方法，最后介绍知识融合在工业领域实践过程中的方法和评估体系。 3.1知识融合概述 3.1.1知识融合的主要难点对于很多...

知识图谱de构建与应用（二）：知识的表示和建模

目录 2.1知识表示简介 2.1.1基于符号逻辑的知识表示方法 2.1.2面向互联网的知识表示方法 2.1.3基于连续向量的知识表示 2.2行业知识建模 2.2.1基于专家的知识建模 2.2.2基于机...

大规模知识图谱预训练模型及电商应用

摘要：近年来，知识图谱因具有以统一的方式组织数据等优势，被广泛应用于许多需要知识的任务，并且在电子商务领域大放光彩。然而知识服务通常需要烦琐的数据选择和知识注入模型的设计，这会给业务带来不良影响。

大规模知识图谱预训练模型及电商应用

点击上方蓝字关注我们大规模知识图谱预训练模型及电商应用陈华钧1,2,张文3,黄志文4,叶橄强1,文博1,张伟2,4 1浙江大学计算机科学与技术学院，浙江杭州310007 2阿里巴巴浙江大学前沿技术...

知识图谱de构建与应用（六）：知识图谱的存储、服务与质量

目录 6.1知识图谱的存储 6.1.1数据模型 6.1.2存储系统选型 6.1.3图查询语言 6.1.4关键技术与选择 6.2知识图谱的服务 6.2.1基于知识图谱的搜索 6.2.2基于知识图谱的推荐...

大规模预训练模型对于知识图谱构建起到的作用

大规模预训练模型对于知识图谱构建起到哪些重要的作用？大规模预训练模型对于知识图谱构建起到以下重要的作用：实体识别：大规模预训练模型可以通过对海量文本的学习，识别文本中出现的实体，并将其映射到知识图...

是否确定退出登录?

知识图谱de构建与应用（七）：大规模知识图谱预训练

7.1 知识预训练概述

7.1.1 预训练语言模型

7.1.2 知识图谱中的结构化上下文信息

7.1.3 基于知识增强的预训练模型

7.1.4 预训练知识图谱模型与预训练语言模型的区别

7.2 商品知识图谱静态预训练模型

7.2.1 预训练知识图谱查询框架

7.2.2 预训练知识图谱查询模块

7.2.3 预训练知识图谱查询服务

7.2.4 在任务模块中使用查询服务

7.3 商品知识图谱动态预训练模型

7.3.1 上下文模块和整合模块

7.3.2 预训练阶段和微调阶段

7.4 商品知识图谱预训练实践案例

7.4.1 基于知识图谱预训练的商品分类

7.4.2 基于知识图谱预训练的商品对齐

7.4.3 基于知识图谱预训练的商品推荐

7.4.4 基于商品知识预训练的实体识别

7.4.5 基于商品知识预训练的关系抽取与属性补齐

7.4.6 基于商品知识预训练的标题生成

7.5 总结与展望

参考文献

全部评论 (0)

相关文章推荐

知识图谱de构建与应用（七）：大规模知识图谱预训练

知识图谱de构建与应用（一）：知识图谱概述

知识图谱de构建与应用（五）：知识推理

知识图谱de构建与应用（四）：知识获取

知识图谱de构建与应用（三）：知识融合

知识图谱de构建与应用（二）：知识的表示和建模

大规模知识图谱预训练模型及电商应用

大规模知识图谱预训练模型及电商应用

知识图谱de构建与应用（六）：知识图谱的存储、服务与质量

大规模预训练模型对于知识图谱构建起到的作用