机器学习项目（六）医疗知识图谱构建（五）

阅读量：

TransE、TransH、TransR、TransD等图嵌入模型在知识图谱中用于表征实体和关系，但存在共同空间假设、参数爆炸、计算复杂度高等问题。RandomWalk系列算法通过随机游走构建上下文，结合skip-gram学习节点向量，实现图谱中实体和关系的表征。DeepWalk基于深度游走，Node2vec结合广度和深度游走，Struc2vec利用结构信息构建上下文，这些方法在不同场景下有不同的实现和性能表现。尽管这些方法在图谱嵌入中取得了显著进展，但如何平衡计算效率和模型性能仍是一个重要挑战。

图表征学习

TransX系列算法
空间传递不变性
Queen-women+man = king

TransE模型通过为每个实体和关系分配一个向量，使得所有实体和关系在同一个向量空间中进行表示。在这样的空间中，每个正确的三元组（head, relation, tail）都可以通过将头实体通过关系映射到尾实体的位置上。我们定义头实体映射到尾实体的位置后与真实尾实体之间的距离为“势能差”，并优化实体和关系向量，使得所有势能差的总和达到最小。

存在一个问题
TransE模型虽简单却存在显著局限性，即其仅适用于处理一对一关系。具体而言，当（华科、地点、武汉）与（黄鹤楼、地点、武汉）同时存在于知识图谱中时，TransE模型会将“华科”与“黄鹤楼”这两者之间的向量表示计算得极为接近，然而实际上这两者之间的关联性并不显著。

TransH的实现机制是什么？它是如何处理单对多和多对一的关系场景的？其核心思路是为每个关系r，构建一个对应的投影空间。在此空间内，采用TransE模型进行处理。实体和关系被映射到同一个空间，其中通过投影操作将实体映射到特定关系r对应的子空间中。数学表达式如下： $h_{wr} = w^T hw$ 。

TransE和TransH模型都基于实体和关系位于同一语义空间的向量假设，这样具有相似特性的实体会在空间中具有相似的位置特征。然而，由于每个实体可能包含多个属性，而不同关系则关注实体的特定属性，因此TransR方法对每个三元组首先将实体映射到与之相关的向量空间中，然后通过线性变换将头实体向量转换为尾实体向量。实体和关系被分配到独立的向量空间中。

如何实现TransR的工作流程？通过引入一个转换矩阵，可以将实体映射到对应的关系空间中，实现TransE模型的表达能力。具体而言，实体h在关系r下的表示为 $h_r = hM_r$ ，而关系r对应的尾实体表示为 $t_r = tM_r$ 。

TransE、TransH、TransR存在什么问题
1.在同一个关系r下，投、尾实体共享相同的变换矩阵，然而，一个关系的头、尾实体的类型或属性可能差异巨大。例如，对于三元组（美国、总统、奥巴马），美国和奥巴马的类型完全不同，一个是国家，一个是人物
2.从实体空间到关系空间的投影是实体和关系之间的交互过程，因此TransR让变换矩阵仅与关系有关是不合理的
3.与TeansE和TransH相比，TransR由于引入了空间投影，使得TransR模型参数急剧增加，计算复杂度大大提高

TransD的运作机制是什么？它通过两个向量来表示每个实体，一个向量用于构建转移空间，另一个向量用于表示语义内容。数学表达式如下所示：
$\begin{cases} M_{r h} = r_{p} h_{p}^{\top} + I \\ M_{r t} = r_{p} t_{p}^{\top} + I \end{cases}$
其中， $h_{\perp}$ 和 $t_{\perp}$ 分别表示经过变换后的头实体和尾实体，其计算公式如下：
$\begin{cases} h_{\perp} = M_{r h} h = h_{p}^{\top} h r_{p} + [h^{\top}, 0^{\top}]^{\top} \\ t_{\perp} = M_{r h} t = t_{p}^{\top} t r_{p} + [t^{\top}, 0^{\top}]^{\top} \end{cases}$

RandomWalk系列算法在多个空间维度中表征实体间的关系。基于传递不变性特性，该算法能够完成头实体到尾实体的转换。

DeepWalk
DeepWalk系列算法的核心思路在于：在图谱中构建多样化的语境。通过模拟语言模型中的词嵌入方法（如word2vec中的skip-gram模型），学习图中节点的向量表示。
具体做法是：
通过不同游走策略构建多样化的语境，生成有效的向量表示。
将图中的节点模拟为语言模型中的单词，图中的节点序列（通过随机游走生成）模拟为语言中的句子，作为skip-gram模型的输入数据。

RandomWalk如何实现
随机游走：深度游走，广度游走
词向量编码：skip-gram

Node2vector如何实现
随机游走：深度游走和广度游走基于概率控制

词向量编码：skip-gram

结构2vec通过随机行走实现节点关系的捕捉机制。具体而言，该方法首先根据不同距离的邻居信息，计算节点对的结构特征；随后，构建多层加权无向图M，其中每层均为加权无向图，层之间存在有向连接关系；最后，在图M中进行随机行走，生成上下文序列。在词向量编码方面，结构2vec采用Skip-Gram模型进行词嵌入学习。

全部评论 (0)

还没有任何评论哟~

机器学习项目（六）医疗知识图谱构建（五）

图表征学习 TransX系列算法空间传递不变性 Queenwomen+man=king TransE 对于所有的实体和关系随机初始化一个向量，使得实体和关系在同一空间内表征，使得每个正确的三元组可以...

机器学习项目（六）医疗知识图谱构建（三）

BiLstm&CRF RNN三个门结构LSTM：门结构合并GRU 传递顺序改变BiLSTM 激活函数改变libLSTM 为什么要使用CRF CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合...

机器学习项目（六）医疗知识图谱构建（一）

NLP中的两大流派知识图谱用三元组来表示知识：对领域的特定知识进行结构化存储和表示模型算法：利用图谱关系进行推导，进行实现自主学习深度学习利用机器提取的特征来表述数据：自动提取内在特征模型...

机器学习项目（六）医疗知识图谱构建（四）

Neo4j Neo4j是一个高性能的NOSQL图形数据库，它将机构化数据存储在网络上而不是表中 Node节点获得图数据库中所有实体节点 relationship增加所有增删改查的边关系节点 NodeM...

【知识图谱学习】知识图谱搭建医疗问答系统

通过知识图谱我们可以构建一个简单的医疗问答系统。在问答过程中可以方便的检索问题。 GitHub：<https://github.com/cshmzin/zstpproject/tree/main/%E...

知识图谱医疗项目实战一走起来！Python+Neo4j构建图谱

前言知识图谱技术，是人工智能自然语言处理领域将知识文本形成“图”或者“网络”的一种技术，进而可以根据构建好的知识网络，做进一步分析或预测。比如医疗领域，我们将门诊的问诊记录，诊断结果，建议饮食，开...

【知识图谱】基于neo4j构建医疗领域知识图谱

【知识图谱】基于neo4j构建医疗领域知识图谱知识图谱本体建模 1.知识图谱实体类型 2\.知识图谱实体关系类型 3\.知识图谱实体属性类型构建neo4j知识图谱创建并启动医疗领域知识图谱图谱...

医疗知识图谱项目实战资料

用户需求核心算法： ·textcnn申请网络病例诊断 ·病例核心语句挑选fx1,x2,x3,x1,x2,x3依次置空的方式获得贡献度） ·ngram+fpgrowth从病例依据生成病的常见模式可存储...

利用知识图谱构建医疗问答

1、准备数据集数据集下载地址：https://github.com/wangle1218/QASystemOnMedicalKG/blob/master/data/medical.json 2、导入...

知识图谱：构建医疗领域的知识体系

您好,我将以简明、专业的技术语言撰写这篇题为《知识图谱：构建医疗领域的知识体系》的技术博客文章。这篇文章将从技术角度全面解析知识图谱在医疗领域的应用,包括背景介绍、核心概念、算法原理、最佳实践、应用场...

是否确定退出登录?

机器学习项目（六）医疗知识图谱构建（五）

全部评论 (0)

相关文章推荐

机器学习项目（六）医疗知识图谱构建（五）

机器学习项目（六）医疗知识图谱构建（三）

机器学习项目（六）医疗知识图谱构建（一）

机器学习项目（六）医疗知识图谱构建（四）

【知识图谱学习】知识图谱搭建医疗问答系统

知识图谱医疗项目实战一 走起来！Python+Neo4j构建图谱

【知识图谱】基于neo4j构建医疗领域知识图谱

医疗知识图谱项目实战资料

利用知识图谱构建医疗问答

知识图谱：构建医疗领域的知识体系

知识图谱医疗项目实战一走起来！Python+Neo4j构建图谱