Entity-Duet Neural Ranking: Understanding the Role of Knowledge Graph Semantics in Neural Informatio
摘要:
本文提出了双实体神经排序模型(EDRM),该模型将知识图谱 引入神经搜索系统。EDRM用词和实体表示查询和文档 。来自知识图谱的语义被集成在它的实体的分布式表示 中,而排名则是通过基于交互的神经排名网络进行的。这两个组件是端到端学习的,这使EDRM自然地成为面向实体的搜索和神经信息检索 的组合。我们在商业搜索日志 上的实验证明了EDRM的有效性。我们的分析表明,知识图谱的语义显着提高了神经排序模型的泛化能力。
面向实体的搜索 和神经IR 从两个方面推动了搜索引擎的发展。面向实体的搜索 结合了来自实体的人类知识和知识图语义 。
介绍:
该方法能够实现端到端学习过程:通过大量来自商业搜索日志的数据反馈,在EDRM框架中构建查询文档的相关性模型,并实现了对知识图语义与神经排名效果的有效集成。这种数据驱动的方式能够充分利用外部语义资源来提升检索性能。
我们在Sogou Query Log and CN DBpedia上进行了实验验证:实验结果表明,在处理具有复杂语义关系的任务时,基于EDRM的方法显著优于仅依赖单词级交互机制的传统神经排名模型(K-NRM)。这一优势源于EDRM在捕捉实体间的深层语义关联方面的突出表现。
相比之下,在当前主流的信息检索体系中存在两种主要的研究方向:一种是基于表示的技术(代表人物包括Guo等人),另一种是基于交互机制的技术(代表人物包括Hu等人)。这两种方法各有特点:前者侧重于从表示层面构建查询与文档之间的匹配关系;后者则专注于从单词级别探索词间互动模式并构建匹配机制.
在上述研究框架下:我们主要关注的是基于表示的方法与基于交互的方法之间的融合改进. 深度相关匹配模型(DRMM)通过金字塔池化操作实现了词级别的相似性摘要;而K-NRM和Conv-KNRM则利用核函数总结词级与词嵌入之间的互动关系. 此外一些研究也尝试引入位置相关性因素以优化匹配机制. 但目前仍存在诸多未解问题有待进一步探索.
实体二重神经排序模型:
本节首先介绍基于当前交互的神经排名模型中的标准体系结构。然后提出了我们的实体-二重神经排序模型,包括整合知识图谱语义的语义实体表示 ,然后进行了实体-二重排序框架 的工作。
第一部分:基于相互作用的排序模型
给定一个查询q和一个文档d,基于交互的模型 首先在q和d之间建立单词级转换矩阵 。转换矩阵使用单词相关性 描述单词对相似性 ,这些相关性是通过在基于交互的模型中计算单词embedding相似性捕获的。
先把查询和文档中的每一个词映射到L维的embedding向量中去。
然后建造转移矩阵M,每一行代表查询,每一列代表文档 。
下一步是从矩阵M中计算最终排名得分。总的来说,这将包括M上的特征提取(φ),然后包括一个或几个排序层,以将特征组合到排序分数中。
第二部分:语义实体表示
EDRM将知识图谱中有关实体的语义信息合并到其表示中。该表示包括三个嵌入:实体嵌入,描述嵌入和类型嵌入,所有这些embedding都是L维的,并被组合 以生成最终的实体的语义表示 。
第二部分中的1:实体embedding
使用L维度的embedding层得到实体e的embedding向量。
第二部分中的2:实体描述embedding
一个实体的描述有m个词,先用Emb层把词转化为embedding,再把所有词的embedding组合在一起。再通过CNN层进行处理,找到实体的Description Embedding。
第二部分中的3:实体类型embedding
一个实体有n种类型,得到每个实体类型的embedding向量。然后利用attention机制把n种实体类型合并成一个针对该实体的type embedding。
第二部分中的4:组合embedding :
将 实体embedding与实体描述embedding与实体类型embedding 一起进行组合成表示为是实体语义的embedding
本研究提出了一种基于神经实体二重表示 的新方法:该框架旨在通过融合词嵌入与实体嵌入来提升搜索性能。通过结合词袋模型与实体袋模型构建双层表示方案:其核心在于实现四个方向的交互机制——即通过四个不同的模态进行关键词与实体间的关联建模。在实验设计中,在此方案下,我们引入了一个基于多模态注意力机制的知识图谱嵌入模型。
与基于内核的神经排名模型集成:
有了充分的训练数据样本后,在这种情况下,整个模型能够基于反向传播算法实现全局优化过程.在学习知识图谱语义表示的过程中,该方法同时实现了实体嵌入、描述嵌入以及类型嵌入等特征的学习,并成功地将这些表征与实体间的匹配关系集成在一起,形成了完整的知识提取流程.
