A Survey on Application of Knowledge Graph
本文是针对《A Survey on Application of Knowledge Graph》的一个翻译。
知识图谱应用综述
- 摘要
-
引言部分
-
应用领域
-
问答系统设计
-
基于语义理解
-
基于信息检索技术
-
基于深度学习嵌入模型
-
深度学习驱动的问答机制
-
复杂场景下的问题处理策略
-
2.2 推荐系统
-
- 2.2.1 基于嵌入的
- 2.2.2 基于路径的
- 2.2.3 其他的工作
-
2.3 信息检索
-
2.4 特定领域
-
- 2.4.1 医学
- 2.4.2 网络安全
- 2.4.3 金融
- 2.4.4 新闻
- 2.4.5 教育
-
2.5 其他应用
-
-
3. 结论
-
摘要
知识图谱作为一种语义图表示信息的方式,在工业界和学术界受到了广泛关注。它们具备语义结构化信息的特性为许多任务提供了重要的解决方案,并被广泛应用于问答、推荐以及信息检索等领域。尽管自2012年谷歌提出'知识图'这一术语以来,在多个商业及科学领域已成功支持了各种'大数据'应用项目;但此前尚无系统性研究对其应用进行过全面评估。因此与专注于构建技术的相关研究不同本文旨在对来自不同领域的应用进行首次系统性调查;本文还指出近年来在特定领域利用知识图谱实现语义结构化信息方面取得了显著进展;但目前仍存在若干有待进一步探索的方向。
1. 引言
近年来,知识图谱(KG)已被证实为众多依赖于结构化知识访问的信息系统的关键技术基础.语义网的概念源于Berners-Lee于2001年的开创性研究.在其工作中,Berners-Lee主张推广并发展统一资源标识符(URI)、资源描述框架(RDF)以及Web本体语言(OWL)等技术规范.
2. 应用
自Google提出以来的知识图谱技术,在近几载来愈受学术界广泛关注。这项研究可划分为构建技术和应用研究两大类。其中构建技术的研究主要关注于如何从非结构化的文本资料中提取实体与关系,并通过一定的机制将其准确地整合进知识库,并在此基础上进行新知推导。而其应用则更多聚焦于实际系统的构建与特定领域的深化。本文旨在全面综述知识图谱的相关应用领域及其发展动态
基于当前的调查结果表明,在这一领域的主要研究方向集中于问答系统、推荐系统以及信息检索等核心应用场景的研究与开发工作

2.1 问答系统
来自KGs的语义信息可用于增强语义感知问答(QA)服务中的搜索结果。Watson是一个问答系统,使用了多种知识库,如YAGO和DBpedia作为其数据源,由IBM开发,用于在Jeopardy程序中击败人类专家,该程序可用于显示KGs的价值。结构化知识也是社交聊天机器人和数字助理的重要组成部分,如XiaoIce、Cortana和Siri。
许多关于问答系统的研究使用Freebase作为知识源,并在WebQuestion上测试他们的系统,包括5810个问答对或包含超过10万个简单问题的SimpleQuestion,这些问题可以通过提取单个事实来回答。传统的基于KG的QA系统可分为三类:基于语义分析的、基于信息检索的和基于嵌入的。近年来,深度学习方法与传统方法相结合,以提高基于KG的QA系统的性能。
2.1.1 基于语义分析
该问答系统基于语义分析技术旨在将自然语言中的问题转化为完整表达查询语义的逻辑结构。随后,解析结果被用来生成结构化的查询(如SPARQL),以便在知识库中搜索并获取答案。Bercant等研究者利用Freebase构建了短语与谓词之间的粗略对应关系。接着,在给定的问题陈述中引入了所有相关的谓词,并通过桥接操作从这些基础谓词中生成额外的谓词,从而构建精确的查询模式以获得正确的答案。Fader等研究者则采取分而治之的方法,在较大的复杂性下实现了良好的性能,但该方法依赖于较为复杂的语义解析器构建,限制了其在更大规模的应用场景中的适用性
2.1.2 基于信息检索
该问答系统主要通过信息检索技术将自然语言形式的问题转化为结构化查询模式。随后分别提取问题本身及其候选答案的相关特征,并在此基础上构建特征向量空间模型以实现对候选答案进行排序排序机制的设计与实现研究工作。具体而言该系统首先通过对问题进行语义分析提取其关键语义成分包括问题核心要素如主题相关关键词等并在此基础上生成与之相关的语义图模型以辅助后续的匹配与推理过程;接着通过依赖项分析技术进一步细化语义图模型构建更加完善的语义关联网络;最后结合上下文信息对生成的语义图模型进行动态优化以提高匹配精度与计算效率
2.1.3 基于嵌入的
研究工作[15]可视为一个基于嵌入式问答系统的范例。研究者首先通过学习给定问题及其对应的低维向量嵌入,并在此基础上构建了问题与候选答案之间的关系网络,在这一过程中计算出问题与候选答案之间的相似性得分,并将得分最高的候选人选为最终答案。
相比之下,
研究工作[16]同样以嵌入技术为核心。
在面对不完美的标记训练数据时,
它展现了令人印象深刻的适应能力。
此外,
该方法提出了对基于嵌入模型进行微调的新策略,
从而显著提升了性能水平。
这些优化成果建立在对相似性参数化矩阵精细优化的基础上,
并无需依赖复杂的特征工程或依赖于复杂的语法分析工具。
与传统的语义分析方法相比,
该向量建模方法在训练阶段实现了具有竞争力的性能,
这得益于其强大的表示能力而非依赖于复杂的语法分析工具。
然而,
该方法未能有效捕捉到词序信息,
因此在处理复杂的问题时仍然存在不足。
2.1.4 基于深度学习的
随着深度学习技术在自然语言处理领域的迅速发展
2.1.5 更复杂的任务
近年来的部分研究转向更为复杂的问答任务。与专注于基于事实提取的问答系统的研究不同,研究[21]关注多步推理生成问题。该研究团队采用多注意力机制模型进行多步推理,并借助指针生成器解码器构建回答内容。该方法结合ConceptNet中的实体关联数据,弥补上下文跳跃推理中的知识缺口。研究[22]针对双语问答系统展开探索,该系统采用三重卷积神经网络结构对候选答案进行排序,并结合K近邻算法实现语言间的互译转换。
2.2 推荐系统
随着互联网技术的发展,商品、电影、新闻等多种在线内容给用户提供带来了严重的挑战。在这一背景下出现的协同过滤(CF)作为一种经典的推荐方法,在分析用户的共同偏好与历史交互行为的基础上来进行推荐。然而该方法通常会遇到数据稀疏性问题诸如常见的用户项交互稀疏性和冷启动问题等挑战。因此为了改善这些问题研究者们致力于通过引入辅助信息来提升推荐系统的性能变得愈发重要。
最近的研究开始关注KGs作为一种辅助信息来源的可能性 KGs通过整合与不同类型的实体之间的关系不仅有助于提升推荐系统的准确性和丰富推荐项目的多样性也为推荐系统带来了良好的可解释性。一般来说现有的基于KG构建的 recommendation systems 可以大致分为基于嵌入的方法与基于路径的方法两种主要类型。
2.2.1 基于嵌入的
在推荐系统中运用知识图谱的可行方案之一是通过嵌入技术实现的预处理机制。该机制结合了知识图谱嵌入(KGE)算法对知识图谱进行预处理,并将学习得到的实体嵌入应用于推荐框架中以提升推荐效果。DKN方法则采用了卷积神经网络(CNN)作为基础架构,并创新性地将实体嵌入与单词嵌入相结合以优化新闻内容的个性化推荐效果。Zhang等学者提出了一个统一的概率贝叶斯模型框架,在该框架下构建了融合文本嵌入、图像嵌入、项目知识嵌入等多模态信息的知识密集型协同过滤模块。这项研究通过深度自编码器模型在推荐系统中实现了多维度社交网络关系分析,并开发出一套综合性的分析框架以辅助决策支持。Wang等研究者则设计了一种交叉共享机制和压缩单元,在协同过滤任务和推荐任务之间建立潜在特征关联关系,并成功提取出项目与知识图谱实体间的高阶交互模式以进一步优化推荐性能
2.2.2 基于路径的
另一种更自然、更直观的方法被称为基于路径的方法,并被用来设计一种图算法以探索知识图谱(KG)中节点之间的多种连接模式从而为推荐提供额外信息
2.2.3 其他的工作
RippleNet旨在综合运用上述两种方法的优势,在知识图谱(Knowledge Graph, KG)中传播用户的潜在偏好信息,并识别出其分层兴趣结构。该传播机制使得KGE(Knowledge Graph Embedding)方法自然嵌入推荐系统框架中,并无需任何人工干预或额外配置。然而该方法对关系网络的关注度较低;随着知识图谱规模的增长趋势明显可见;这将导致显著的计算资源消耗与存储负担;从而进一步构建起完整的 KG 三元组集合
2.3 信息检索
由于KGs的出现,今天越来越多的商业网络搜索引擎正在整合KGs的实体数据,以改善其搜索结果。例如,Google整合了来自Google Plus和Google知识图谱的数据,而Facebook通过图形搜索对实体执行搜索任务。
KGs包含关于真实单词实体的人类知识的特性有助于搜索系统提高其理解查询和文档的能力。一些研究人员正致力于探索KGs在信息检索方面的潜力。面向实体的搜索随着大规模KGs的发展而发展。有许多可能的方法可以在不同的组件中利用KGs的语义,例如查询表示、文档表示和搜索系统的排序。
通过引入相关实体及其文本来扩展查询,可以改进查询表示。例如,工作[31]提供了实体本身的特征,实体与知识库(如结构化属性和文本)之间的链接用于丰富查询。
通过将注释实体添加到文档的向量空间模型中,可以丰富文档表示。在研究工作[32]中,从查询和文档的实体注释生成实体向量包以表示它们。然后,使用实体空间中文档和查询之间的输出匹配对文档进行排序。工作[33]将查询和文档建模为一组语义概念,这些语义概念是通过实体链接系统运行它们而获得的。
另一种方法是通过相关实体建立从查询到文档的附加连接,以改进排序模型。Liu等人将查询和文档映射到高维潜在实体空间,其中每个维度对应于一个实体,然后根据查询和文档对潜在空间中每个维度的投影来估计查询和文档之间的相关性。Xiong等人有助于捕获更多语义关联模式。在他们的工作中,实体和词表示之间的交叉匹配与四方交互结合在一起。
在信息检索系统中,融合了KGs中人类知识的面向实体搜索显示出了良好的结果,而深度学习技术使得从大规模训练数据中学习更复杂的排序模型成为可能。研究工作[36]将KGs引入神经搜索系统。它将KG的语义集成到其实体的分布式表示中,并通过基于交互的神经排序网络对文档进行排序。
2.4 特定领域
2.4.1 医学
在医疗保健信息呈现出爆炸式增长的趋势下,在医疗保健信息系统中占据了越来越重要的地位的文本医学知识(TMK)。为了满足这一需求的一部分解决方案,在一些研究中开发了TMK并将其整合到知识图谱中以实现计算机以正确和快速的方式检索和解释医学知识。Ernst等研究者开发了一种方法用于自动构建大型生物医学科学知识图谱他们的数据来源包括UMLS实体词库以及来自不同卫生门户网站的各种科学出版物和帖子输入源但它们无法与卫生数据实现集成。Shi等研究者成功地将健康数据整合到异质文本医学知识中并开发了一种算法用于修剪知识图上的无意义推理从而提高了推理结果的性能。Goodwin等研究者则专注于使用由2010年i2b2挑战提出的框架将医生的信念状态纳入病历系统以便实现这一目标
2.4.2 网络安全
随着信息技术的发展
2.4.3 金融
李等人通过收集每家公司的新闻报道并抽取命名实体信息的基础上,在分析各公司间的业务关联性后构建了一个企业知识图谱系统。基于GRU模型结合各公司新闻数据的情绪特征进行分析后发现该方法能够有效预测股市走势这一研究面临的主要挑战在于如何在大规模的知识图谱中发现那些具有强关联性的股票对问题为此提出了研究方案
2.4.4 新闻
总体而言,新闻作为信息载体,在时间维度上呈现出动态性特征。它作为一种高度浓缩的知识载体,承载着丰富的知识实体和常识信息。为此,
研究者们倾向于将知识图谱(KGs)应用于新闻领域以提取其核心特征。
DKN方法通过构建事件为中心的知识图谱表示来发现潜在的知识联系,
从而有效提升用户的个性化推荐效果。
另一方面,
假信息的泛滥可能对社会稳定造成严重威胁。
为此,
研究团队将假信息检测视为一种基于知识图谱的技术问题,
并致力于揭示其内在规律。
具体而言,
这项研究通过分析事实陈述网络中的异构连接模式来验证信息真实性。
值得注意的是,
鉴于现代通讯技术使得信息在全球范围内快速传播,
提高实体解析与语义角色标记等关键任务的性能成为当务之急。
特别是在多语言环境下,
这一目标显得尤为重要。
2.4.5 教育
在教育领域中的一些研究开始采用基于KGs的方法进行学习资源推荐与概念可视化展示。知EDU系统作为一个自动构建教育知识图谱的平台,在其设计中特别关注教学场景中的知识表示方式。与传统知识图谱中以节点表示现实世界实体不同,在教育语境下期望的节点应能够反映学习者应当掌握的核心概念。因此本研究将循环神经网络模型应用于教学数据处理阶段以提取教学概念,并通过学生表现数据结合概率关联规则挖掘算法来揭示教学概念之间的关联关系。Grévisse等人则提出了一种工具用于推荐流行创作软件中的学习材料,并通过扩展与过滤策略从开放知识库中获取补充信息来构建语义表示体系以帮助教师识别核心知识点进而从开放语料库中筛选并定位相关学习资源
2.5 其他应用
描述社交网络去匿名化和隐私推断过程是应用KGs的进一步应用。此类应用有助于确定和衡量隐私暴露。在此场景中,节点表示用户,而链接表示用户关系。将非对称化问题转化为最大加权二分匹配问题,并使用局部敏感哈希(LSH)进行隐私推断。
一些研究人员还考虑使用KGs进行分类。Zhang等人充分利用更接近生物视觉信息处理模型的知识图谱来研究图像中类别之间的关系,并结合语义计算方法来指导图像分类任务。Ma等人通过添加与外部知识集成的组件改进了经典LSTM单元,这直接有助于识别情感分析的方面和情感极性。
虽然主要地球科学研究工作侧重于处理地理参考定量数据,但一些研究人员正试图从文本地球科学数据中提取信息和知识发现。该工作[55]处理地质文件,并通过无监督学习方法直接提取知识。然后利用文档处理和字典扩展技术,结合链接的开放数据,构建了一个KG。然而,这些工作并没有实现知识图谱和原始文献之间的信息检索。
KG还可以帮助打击人口贩运。为了帮助相关组织找到贩运者并帮助受害者,Szekely等人为人口贩运领域建立了一个大型KG。他们使用从网站上连续爬取的性交易行业广告作为数据源,并通过语义技术协调来自不同来源的数据。
工作[57]表明,KGs可以应用于机器翻译,研究工作[58]支持了这一观点,研究工作通过生成多语言知识图嵌入,有助于跨语言对齐实体。
3. 结论
据我们所知,在过去的研究中已有学者首次对知识图谱在不同领域的具体应用进行了系统性梳理,并将其应用于问答系统、个性化推荐引擎以及信息检索系统等多个场景。综合来看,在这一领域的发展上已取得了一定的成果——尽管知识图谱体系本身具备提供语义结构化信息的强大功能,并且近年来在这方面取得显著进展——但目前仍存在一些值得深入研究的方向
在未来的研究工作中 我们打算通过融合 KG 算法的应用程序与现有研究方法来进行这项扩展工作
