基于深度学习的文本语义匹配综述
摘要
该任务的核心目标是评估不同文本之间的语义关联程度。在自然语言处理领域具有基础地位的任务是文本匹配技术,在实际应用中可广泛应用于多个具体场景。通过深度学习方法,该技术能够更深入地提取和利用语义信息。为了系统性地梳理了多种基于不同语义组合的匹配模型及其性能特点,并对这些模型进行了详细比较分析。此外还探讨了基于预训练语言模型的方法如何进一步提升匹配效果。针对不同类型的原始文本数据,在现有研究基础上提出了若干新的研究方向与技术路线。最后本文旨在探讨该技术在未来的发展趋势与应用前景
0 引言
语义匹配作为自然语言理解(NLU)的关键环节具有重要意义。传统的人工特征提取过程耗时费力且效率低下,在特定领域往往参数数量有限这限制了模型的泛化能力为此提出了多种改进方案。例如基于BM25的方法需对查询进行词素分解处理其核心在于衡量查询关键词与文档内容之间的相关性而这类基于词素层次的信息匹配机制难以捕捉复杂的语义关联。随后 emerged基于潜在语义分析的方法它通过映射到潜在语义空间对词与文档进行关联分析进而实现更为全面的信息检索。然而该类方法在实际应用中仍存在诸多局限性随后研究者们开始关注语法信息与语义信息的结合这一方向也逐渐展现出新的研究思路。
随着深度学习技术的快速发展, 不同类别的神经网络被应用于自然语言处理(Natural Language Processing,NLP)领域的多个关键任务当中, 其中最为基础且应用广泛的便是结构较为简单的全连接人工神经网络. 此外, 其他具有代表性的包括卷积人工神经网络(CNN)[6-8]、循环人工神经网络(RNN)[9-10]以及注意力机制(Attention)[11-12]等技术. 这些不同类型的神经网络架构不仅推动了NLP技术体系的不断丰富和完善, 同时也为后续研究奠定了坚实的基础. 基于大量数据的学习算法能够自动识别特征, 从而简化了传统的人工特征工程任务. 此外, 通过建模文本数据并挖掘文本间交互关系, 深度神经网络不仅能够更好地捕捉语义信息, 而且显著提升了模型在后续任务中表现出更强的能力.
近年来的研究表明,在大规模的数据集上使用预训练模型(Pre-trained Models, PTMs)能够掌握通用的语言表达,并显著提升在各种自然语言处理任务中的性能。这种基于迁移学习的方法不仅避免了从零构建新模型所需的大量计算资源[13],还具有较高的泛化能力。具体而言,在第一代预训练模型中(如Word2Vec[14]),主要关注于词嵌入技术的发展,并通过特征迁移的方法预先掌握丰富的语义信息,并能够整合跨领域的知识和任务;而在第二代预训练模型(如BERT)中,则不仅能够捕捉复杂的上下文语义,并且通过参数迁移机制实现了源任务与目标任务之间的共享优化。因此,在实际应用中结合微调技术使得预训练模型的应用范围更加广泛。
目前关于第二代预训练模型在文本匹配领域的中文综述研究相对较少,而现有的研究则主要聚焦于大模型技术的深入探索。例如,文献[16]系统性介绍了当时的深度语义匹配模型,但限于当时大规模预训练语言模型(BERT等)尚未成熟这一技术瓶颈。本文从多维度解析语义组合结构,首先概述了一系列经典的深度语义匹配模型,其基本架构主要包括全连接神经网络、卷积神经网络、循环神经网络以及注意力机制等核心组件,这些方法均为当前较为成熟的技术方案,已在工业领域得到广泛应用。随后重点阐述了基于大规模预训练语言模型的文本匹配相关算法研究进展,深入探讨了长文本匹配和中文语义理解的关键技术难点,并结合实际应用场景进行了深入分析,最后展望了未来语义匹配领域的技术发展方向和潜在研究方向
1 经典语义组合结构
神经网络结构通过整合词与短语等基本语义单元构建更大的语义单元,并模拟其语法与语义信息。基于CNN、RNN等方法构建了常用的语义组合模型。本节从该分类出发系统阐述了经典的深度语义匹配模型。首先阐述了文本匹配任务的基本概念,并通过图1展示了文本匹配任务的基本框架示意图。

图1文本匹配任务
Fig. 1 Task of texts matching

下载: 原图 | 高精图 | 低精图
1.1 文本匹配任务定义
自然语言的匹配问题可被形式化地定义为:对于一个三元组(S,T,y),其中S=(s₁,…,s_i,…,s_m),T=(t₁,…,t_j,…,t_n),其中m和n分别表示两段文本的长度。在此框架下,y代表标签值域通常限定于{0,1}。例如,在意义识别任务中,当S与T具有相同的语义时y=1;反之则y=0。在答案选择任务中,则将S视为问题陈述而T作为候选答案集合,在此情况下y=1表明T是S的最佳回答而y=0则表示T并非正确答案;对于文本蕴含性任务,则y∈{entailment,contradiction,neutral}分别对应于S能推导出T、二者矛盾以及两者相互独立的情况。基于此设定,在给定一段文本S及其候选回答集合{T|ti∈T}的情况下,模型需评估各候选答案ti与原始文本S之间的相似度评分ri,并按照ri值从高到低排序以确定最优匹配结果。最终通过Softmax层可估计概率P(y|S,T)来进行分类判断,在答案选择的任务中应选取概率最大的候选答案作为最终输出。
1.2 全连接神经网络用于文本匹配
全连接神经网络是构成其他许多神经网络的基础架构。它为包括卷积神经网络(CNN)、循环神经网络(RNN)在内的诸多主流网络架构提供了基础框架。然而由于其具有较多的参数节点且计算资源需求较高,在实际应用中往往面临较大的计算压力。研究者将深度语义结构模型(DSSM)作为基于全连接神经网络(FCNN)的经典架构之一进行了深入探讨[18]。该研究方向通过构建深度语义匹配模型实现了质的飞跃,在搜索引擎优化方面发挥了重要作用。具体而言本研究通过建立基于语义特征的关键词查询与网页标题之间的对应关系模型,在网页排序任务中较之传统的基于文本相似度的传统方法表现出显著性能优势,并获得了广泛认可。此外如图2所示该论文所提出的DSSM架构仅包含6层即可实现高效的特征提取与分类功能这充分体现了其设计上的精炼与高效性

图2 DSSM网络结构
Fig. 2 Structure of DSSM

下载: 原图 | 高精图 | 低精图
图2所示中_Q_标识查询对象,在_D_标记表示文档的关键字信息,并将_R_与_P_分别定义为相关性计算公式与概率计算公式的表达式。其中第一层构成输入结构,在此层中输入的是高维词向量数据;随后经过词哈希处理后(即执行word hashing处理),该层基于字母的n-gram进行特征提取并降低维度;随后三层均为全连接层,在此过程中通过非线性变换将查询与文档映射至一个公共语义空间;最终在第六层计算给定查询下每个文档的相关度值;网络输出结果为低维语义特征空间中的向量形式;而在第七步则对这些低维向量进行进一步分析以获取最终的结果输出
| R(Q,D)=cos(yQ,yD)=yTQyD | yQ | yD | R(Q,D)=cos(yQ,yD)=yQTyD | yQ | yD | (1) |
|---|
在式中
| L(A)=−log∏(Q,D)P(D | Q)L(A)=-log∏(Q,D)P(D | Q) | (2) |
|---|
式中, A 表示神经网络的参数集合。
1.3 CNN构建匹配模型
基于生物学感受野机制的发展而建立起来的CNN模型,在处理局部信息时采用了卷积滤波器的方法。最初用于计算机视觉任务的CNN模型,在自然语言处理领域也展现了显著效果。经过发展与应用研究,在问答系统、网页搜索以及文本分类等多个自然语言处理应用领域取得了良好成果。
基于卷积潜在 semantic 模型(Convolutional Latent Semantic Model, CLSM)构建的信息处理架构中整合了卷积运算与池化操作,在信息提取阶段通过滑动窗口计算得到对应短语序列向量表达并经最大值池化得到最终编码结果。该方法旨在生成搜索查询与 Web 文本之间的低维语义向量表示[21]。相较于 DSSM 中采用全连接层的学习框架,在 CLSM 中将深度神经网络模块设计被替换成结合卷积神经网络与池化机制的新架构组件以提升模型对局部上下文关系的关注能力。在特征提取过程中,在输入单词序列两端补充一个填充单词从而保证完整的上下文覆盖能力
| v(i)=maxt=1,...T{ht(i)},i=1,...Kv(i)=maxt=1,...T{ht(i)},i=1,...K | (3) |
|---|
在公式中,在最大池化层中的每个元素v(i)表示为该层的第i个元素;在时序数据处理过程中,在第t时刻的特征向量序列h_t中的每个元素h_t(i)表示为该时刻对应的特征值;其维度与其一致。
Pang等人在文献中首次将文本匹配机制类比于图像识别技术。其中所采用的关键技术被命名为MatchPyramid架构。尽管该模型采用了基于CNN的技术来提取特征向量,但其整体架构与CLSM和DSSM等主流方法存在显著差异。然而其整体架构与CLSM和DSSM等主流方法存在显著差异。然而其整体架构与CLSM和DSSM等主流方法存在显著差异。然而其整体架构与CLSM和DSSM等主流方法存在显著差异。然而其整体架构与CLSM和DSSM等主流方法存在显著差异。然而其整体架构与CLSM和DSSM等主流方法存在显著差异。

图3 MatchPyramid简单流程
Fig. 3 Simple process of MatchPyramid

下载: 原图 | 高精图 | 低精图
改写说明
| Mij=wi∘vjMij=wi∘vj | (4) |
|---|
在公式中,在文本序列中取两个窗口位置分别抽取特征向量_w_i和_v_j(其中_w_i代表第一段文本的第_i个词向量)之间进行相似性计算的操作。这里定义的操作符∘被设计成一个可学习的映射函数,在实际应用中可以选择指示函数、余弦相似度或者点积等不同的计算方案来适应不同的任务需求。随后,在多层次卷积模块的作用下会自动提取出从短语层面到句子层面的层次化匹配机制
该研究中还探讨了另一种卷积策略用于匹配任务的方法——Hu等[23]提出的方案。该方案构建了两个关键模块:ARC-I和ARC-II系统。其中 ARC-I模块基于Siamese网络架构[24]设计了一个独立生成语义向量的过程;而 ARC-II则在首次卷积操作后实现了两个待匹配文本语义向量的信息融合过程以减少语义信息丢失的可能性。此外 Tree-Based Convolutional Neural Network(TBCNN)模型也首次引入了基于树状结构的卷积神经网络架构来处理语句对建模任务[25]如图4所示 TBCNN的基本框架包含多个层次的设计:第一层是基于树状结构的卷积网络层用于对单个句子进行表征学习;其参数与前一层相同旨在捕获句子的一般语义特征;随后的匹配层则通过启发式机制整合两个待匹配句子的信息;最后输出层采用softmax函数进行分类预测运算目标定义为交叉熵损失函数并采用小批量随机梯度下降算法进行优化以实现模型参数的有效更新

图****4 TBCNN
Fig. 4 TBCNN

下载: 原图 | 高精图 | 低精图
DSSM、CLSM、ARC-I等结构均基于Siamese网络的思想,具有鲜明的对称性,将两段文本转换为高维向量的编码器结构均相同。网络结构的末端对两段文本进行特征交互,最后完成分类或相似预测等任务。该框架的优点为共享参数使模型更小、更容易训练,基于两个句子向量进行匹配决策,实现较简单。然而Siamese网络的一个重要不足是在编码过程中两段文本之间没有明确的交互作用,可能会丢失一些重要的语义信息,影响匹配效果。匹配聚合(Matching-aggregation)的框架是对Siamese结构的一个改进[26],其首先对两个句子的较小单位(如单词或上下文向量)进行匹配,再将匹配结果聚合成一个向量,作出最终决策。这一框架能学习更多的句子间交互特征,因此语义匹配结果有显著提升。
1.4 RNN构建匹配模型
全连接神经网络与卷积神经网络都属于前馈神经网络类群,在层与层之间建立连接时并未设置跨层节点链接,并且其输入与输出的空间维度保持恒定。这种固定维度的设计限制了这类模型在处理长度可变的序列数据时的表现能力。相比之下,循环神经网络(Recurrent Neural Network, RNN)专为分析具有顺序特性的数据而设计,在生物神经系统模型中具有更高的契合度,并广泛应用于自然语言处理任务中。长短期记忆模型(Long Short-Term Memory, LSTM)以及门控循环单元(Gated Recurrent Unit, GRU)作为RNN的重要改进型模型,在解决传统RNN面临的问题方面表现更为卓越,并在实际应用中得到了更广泛的采用。
双模多视角融合机制(Bilateral Multi-Perspective Matching, BiMPM)本质上是一种匹配整合架构[29]。对于给定的文本序列P和Q,在BiMPM模型中首先采用双向长短期记忆网络(BiLSTM)对其进行编码表示,并分别从正向和反向两个方向提取特征信息。其中,在正向方向(即P→Q)中,Q序列中的每个时间步都会与P序列的所有时间步特征进行多维度对应关系建模,随后将这些中间匹配结果再经过一个双向LSTM层来进行整合处理,从而生成固定的长度对比向量作为最终的特征表示。其网络架构示于图5中,并包含5个主要层次:词嵌入层、文本表示层、对比学习模块、特征整合模块以及预测决策层.其中,词嵌入层通过GloVe[30]预训练模型生成词向量表示,同时结合字符嵌入方法进一步优化了单词级别的表征表达;文本表示层则综合融合了输入文本的信息;对比学习模块负责提取跨序列的相关性信息;特征整合模块利用多层神经网络完成信息融合;最后通过全连接层完成最终的预测任务。
| →:hpi=LSTM(hpi−1,pi) i=1,...,M←:hpi=LSTM(hpi+1,pi) i=M,...,1→:hip=LSTM(hi-1p,pi) i=1,...,M←:hip=LSTM(hi+1p,pi) i=M,...,1 | (5) |
|---|
在式中所述,在箭头处展示了不同文本信息融合的方向,在此过程中有另一个操作机制与其相似性。该层能够从正反两个方向对P和Q进行对比分析,并具体定义了四种不同的操作类型:全连接、最大池化、注意力机制以及综合注意力机制。这些操作均未在此处展开详细说明。随后进入聚合层阶段,在这一环节多个特征向量经过聚合处理后生成固定长度的表示,并被传递至预测模型进行概率分布计算。整个过程采用了两段多级前馈神经网络架构并配合softmax函数完成最终分类任务

图5 BiMPM网络结构
Fig. 5 Structure of BiMPM

下载: 原图 | 高精图 | 低精图
ESIM是一种专门用于自然语言推理的网络架构[31]。该系统由输入编码、局部推理建模以及推断组合三个主要组成部分构成。该系统采用双向长短期记忆单元(LSTM)对输入的事实陈述及其假设进行编码,并通过学习每个单词及其周围的语境信息来表示意义内容。例如研究答案选择任务的任务中(如文献[32]所示),他们采用了基于双层循环神经网络架构的方法来提高模型性能。双层循环神经网络架构在处理语义匹配问题时表现出色,在捕捉信息之间的复杂依赖关系方面具有明显优势。(文献[29])
1.5 引入注意力机制的模型
注意力机制被用来将某些相关信息嵌入到文本表示中的隐藏状态以提升性能

图****6 IARNN-WORD
Fig. 6 IARNN-WORD

下载: 原图 | 高精图 | 低精图
该研究致力于构建一种新的深度学习模型以解决句子匹配问题。其核心创新在于巧妙地将自注意机制与卷积神经网络相结合。这种设计主要应用于三个关键任务领域:语法意义识别、答案选择以及文本隐含信息分析[34]。具体而言该模型包含三种不同的架构设计分别为ABCNN1、ABCNN2和ABCNN3。其中ABCNN1模型在卷积神经网络之前引入自注意机制而ABCNN2则是在卷积操作之后加入自注意模块两者的区别在于前者先关注后再提取局部特征后者则是先提取空间特征后再进行全局关注最终通过混合机制实现了更好的表征学习效果。以ABCNN1为例该模型首先接收输入的待匹配句子每列代表一个词向量这些向量均由word2vec算法[14]提取初始表示。随后构建了一个注意力权重矩阵** A** 这个矩阵通过权重参数w0和w1从初始向量中生成出一组特征表示矩阵每一个完整的句子会被编码为两个这样的特征矩阵随后进入卷积层进一步提取高阶抽象特征从而完成整个匹配过程的关键步骤。

图****7 ABCNN1
Fig. 7 ABCNN1

下载: 原图 | 高精图 | 低精图
2 预训练模型用于文本匹配
随着计算能力的提升, 更深入的模型架构(如Transformer类)[35]随之出现, 并伴随训练策略的进步, 使得预训练语言模型的发展呈现出明显的层次化趋势。传统的注意力机制模型往往结合卷积神经网络(CNN)和循环神经网络(RNN)进行联合设计, 而Transformer则完全基于自注意力机制(Self-Attention)进行建模, 与传统的基于顺序结构的模型不同, 它能够并行化训练过程, 并且能够捕获全局语义信息, 特别有效于解决序列数据中存在的长期依赖问题, 其具体架构可见图8。每个Transformer模块包含6个编码器层和6个解码器层, 这些编码器在结构上是相同的但并未共享任何参数, 每一层都可以分解为自注意力模块与前馈神经网络两部分组成; 解码器则在基础架构上增加了多头注意力子网络这一关键组件。关于这一方法论体系的相关细节, 可进一步参考文献[35]

图8 Transformer结构
Fig. 8 Structure of Transformer

下载: 原图 | 高精图 | 低精图
该预训练模型基于Transformer架构设计,并于发布时迅速获得了学术界的广泛关注。研究显示,在多个领域展现了卓越性能(例如GLUE基准测试[36]结果表明)。该模型采用双重预训练方法——掩码语言建模(Masked Language Model, MLM)与下一句预测(Next Sentence Prediction, NSP),分别学习词性和句法层次的信息。经过预先训练后,在该模型基础上进行微调优化可以显著提升下游任务的表现能力。值得注意的是尽管采用了MLM方法进行预训练但其独特的双向交互机制使其不适合生成文本任务而更适合理解型任务具体而言用于匹配任务的微调结构如图9所示展示了其在特定应用场景中的实际应用效果。

图9 BERT用于文本匹配
Fig. 9 BERT for text matching

下载: 原图 | 高精图 | 低精图
当输入时, 两个文本会被拼接成一个连续序列, 其中通过标签
表1 BERT与BiLSTM比较
Table 1 Comparison between BERT and BiLSTM
| 模型 | MRPC | STS-B | QQP | MNLI | QNLI | RTE |
|---|---|---|---|---|---|---|
| F1 | Spearman corr. | F1 | m | Acc | Acc | |
| BiLSTM+ELMo+Attn | 84.9 | 73.3 | 64.8 | 76.4 | 79.8 | 56.8 |
| BERTBASE | 88.9 | 85.8 | 71.2 | 84.6 | 90.5 | 66.4 |
| BERTLARGE | 89.3 | 86.5 | 72.1 | 86.7 | 92.7 | 70.1 |

下载: 导出CSV
在学术界和工业界受到广泛关注后,BERT的各种改进预训练模型先后被提出,其中一些具有代表性的研究工作值得关注. RoBERTa通过使用较大的批次,较长的序列长度以及在更大规模的数据集上进行深度学习,显著提升了原始BERT的表现. 在现有的预训练方法研究中,文献[39]通过实验表明,下一句预测任务并未带来性能上的提升效果,因此RoBERTa仅保留了Mask语言建模任务作为其预训练目标. 同时,RoBERTa还实现了动态调整数据中的MASK模式的比例,从而有效缓解了原始BERT在预训练与微调之间存在性能差距的问题. 在这一领域,ArcTecT采用了一种基于因子嵌入参数化技术和跨层参数共享的新颖方法,成功降低了原始BERT的内存消耗的同时也进一步提升了模型的推理速度. 这些研究工作还致力于构建统一的大规模预训练语言模型体系,以实现对自然语言理解与生成任务的良好适用性. 其中,XLNet将自回归模型中的Transformer-XL思想成功融入到预训练过程中,避免了传统Mask建模方法导致输入信息破坏的问题,并在多项下游NLP应用任务中展现了超越传统BERT的优势. 另外一种创新方法 UniLM 则综合运用了单向语言模型、双向语言模型以及seq-to-seq语言模型三种不同的预训练任务模式,并通过网络参数共享机制避免了单一建模方向带来的过度拟合问题. 这一设计不仅显著提升了模型的泛化能力而且也增强了其适应不同应用场景的能力.BART则采用了全新的seq-to-seq架构并在此基础上引入了噪声函数处理机制作为其独特的预训练目标构建方案. 通过实验分析发现,BART最佳噪声处理策略是打乱句子token顺序的同时采用单一mask标志遮盖多个原始token位移的方式进行掩码操作. 预计这一创新思路将在后续的研究工作中得到进一步拓展与完善

图10 BART的预训练
Fig. 10 Pre-training of BART

下载: 原图 | 高精图 | 低精图
表2 BERT与改进模型的实验比较
Table 2 Experimental comparison between BERT and its improved model
| 模型 | MRPC | STS-B | QQP | MNLI | QNLI | RTE |
|---|---|---|---|---|---|---|
| Acc | Acc | Acc | m | Acc | Acc | |
| BERT | 88.0 | 90.0 | 91.3 | 86.6 | 92.3 | 70.4 |
| UniLM | - | - | - | 87.0 | 92.7 | 70.9 |
| XLNet | 89.2 | 91.8 | 91.8 | 89.8 | 93.9 | 83.8 |
| RoBERTa | 90.9 | 92.4 | 92.2 | 90.2 | 94.7 | 86.6 |
| BART | 90.4 | 91.2 | 92.5 | 89.9 | 94.9 | 87.0 |

下载: 导出CSV
基于T5架构的方法对各种预训练方案进行了系统性研究,并成功构建了一个通用框架。该框架主要包含Transformer编码器-解码器结构、基于"替换片段"的破坏文本策略以及将下游任务统一为text-to-text生成范式[45]。针对中文大规模预训练任务的研究中发现,在该领域取得了一系列重要成果:例如BERT-wwm[46]、ZEN[47]等模型在中文任务场景下表现尤为突出;此外还有研究表明可以通过引入外部知识来提升BERT模型的理解能力[49]。SemBERT作为一种语义感知增强的改进型BERT模型,在不显著增加复杂度的情况下实现了优异的性能表现;其主要特点是在保持原有功能的基础上通过微调机制来继承上下文语义信息[48]。tBERT则是一个以主题为导向的改进型结构,在特定领域语义相似度检测方面具有显著优势:它通过将主题建模技术与传统的BERT架构相结合,在解决特定类型的任务时展现出独特的优势[49]。研究者们还尝试将先验知识融入基于BERT的深度学习模型中,在提升文本匹配任务性能方面取得了积极进展:他们通过在多头注意力机制中加入知识表示模块,并非传统意义上的额外训练任务设计;而是直接引导模型利用注意力机制学习词汇间的相似性知识[50]。这种改进方式特别适合应对数据量有限的情况,并展现出明显的性能提升效果。
3 其他类型文本匹配
3.1 长文本匹配
长文本中的语义信息通常比短文本更加丰富,并且其中具有重要语义的信息分布也更为分散。因此基于长度差异的设计不同语义匹配模型是必要的。这些用于语义匹配的模型主要用于短文本配对,通常是句子之间的配对。然而,在面对长文本时所面临的配对任务更具挑战性。例如,在篇章级配对问题上。长包含比单个句子更多的上下文关联,并且还存在复杂实体之间相互作用的关系。这种相互作用在传统短文处理中较少被考虑到。
刘等(51)提出了基于图形分解与卷积网络的长文本匹配方法。该方法首先构建了概念交互图,并通过图结构对长篇文章进行内容拆分,在图中每个节点存储相应的关键词信息。从而将短文本中的关键字作为替代手段用于长文本匹配过程,并通过图卷积神经网络对各节点特征进行融合计算以获得最终的相似度得分[52]。针对这一挑战,在现有条件下缺乏足够的训练数据是主要障碍,在此背景下研究者构建并公开了两个包含标签标注的真实世界文档集合。
对于BERT模型而言,在输入端设置了最大长度限制值为512字节;当面对超过这一限制范围的内容时,则需将其拆分为多个段落分别处理。参考文献[53]提出了一种基于BERT的方法来解决长文本匹配问题;该方法通过将长文档分割成多个短句,并对每个短句分别进行匹配打分;最后将前n个高分句子的得分综合计算得到整个文档的评分。XLNet则采用了Transformer-XL架构结构,在处理较长文本时展现了显著优于BERT的优势。综上所述,在深度学习方法用于长文本匹配方面仍存在较多空白;未来研究仍需进一步深入探索。
3.2 中文语义匹配
中文处理任务与英文的最大不同之处在于需要解决分词问题。基于英文的匹配模型最初被提出后,在应用到中文场景时有两种主要策略:直接使用汉字作为输入单位或在分词后采用汉语词语作为输入单位。使用汉字作为输入无法充分挖掘词语内的语义信息从而影响匹配效果;而基于词语的方法则需要维护庞大的词汇库同时面对数据稀疏性和强烈的歧义性问题;此外还会因分词错误导致后续处理环节产生误差积累现象对命名实体识别任务尤为显著。举个典型的例子:对于“南京市长江大桥”这句话其在不同分词方式下会产生完全不同的语义解释;人类凭借经验能够轻易判断这句话更可能指的是桥而非名为“江大桥”的市长;但对于计算机算法而言就显得非常困难了这种由分词引起的歧义会对后续的语义匹配产生极为严重的影响文献[54]通过在两个中文数据集LCQMC[55]和BQ[56]上分别采用BiMPM模型进行实验发现基于字符级别的模型在语义匹配方面表现优于基于词汇级别的方法;此外关于最佳中文表示单位如何确定中文任务中是否有必要进行分词以及如何实现更精确地进行分词等问题仍需进一步深入研究
某些模型整合了词性和字符级别的数据来源,并针对中文文本的不同层次分析任务展开了研究。该方法LSTM-LC被提出用于解决中文命名实体识别问题,在其基础上将基于字符的命名实体识别方法与词和序列信息相结合,并成功集成到LSTM-CRF架构中。在训练命名实体识别数据集时,在这个过程中该方法能够通过上下文提取更有意义的词汇信息,并展现出较佳的命名实体识别效果。相较于仅依赖汉字或单词进行分析的方法而言,在此方案中该模型不仅能够有效利用显式的词汇信息而且还能避免由于分词错误带来的负面影响。
该种体系结构是一种以lattice为核心的CNN模型,在中文短文本匹配任务中展现出良好的性能[58]。对于由单字或潜在词汇组成的word lattice结构,在每一层级网络中均给予相同的关注,并提取各自对应的语义信息。这些网络模块通过多级卷积操作提取句子特征,并通过残差连接机制将各卷积层级的信息进行有效传递。随后利用池化操作整合全局特征进而生成句子级别的表示向量。最终将这些表示向量输入到多层感知机中计算出具体的匹配分数。整个匹配过程可被系统性地描述为:
| s=σ(W2Re LU(W1(f1⊙f2)+bT1)+bT2)s=σ(W2Re LU(W1(f1⊙f2)+b1T)+b2T) | (6) |
|---|
式中, f 1 和 f 2 表示句子的特征向量,由CNN编码;W1、W2、bT1、bT2均为参数,⊙为元素乘。
本研究的目标在于最小化交叉熵损失函数值。其中 y i 表示一个二元分类标签集合(取值范围仅为0和1),而 i 则标识第i个训练句子对的索引号。
| L=−∑i=1N[yilog(si)+(1−yi)log(1−si)]L=-∑i=1N[yilog(si)+(1-yi)log(1-si)] | (7) |
|---|
本文详细阐述了基于卷积神经网络(CNN)的编码机制。如图11所示地显示了,在LCNs中,每个输入句子被映射为一个由可能单词构成的lattice结构。具体而言,在LCNs中,每个输入句子被映射为一个由可能单词构成的lattice结构,在此过程中,默认会引入一些干扰信息(即噪声),但通过池化操作可以有效地进行平滑处理。值得注意的是,在这种架构设计下,并不需要传统的分词步骤即可完成任务;相反地,则需要将所有可能的信息嵌入到lattice中并作为输入传递给卷积层进行处理。最后,在这一系列卷积操作完成后,则利用池化方法将多个不同上下文区域产生的特征向量进行融合汇总以生成最终结果。研究文献[60]在此基础上进一步整合了外部知识来源,并在两个基准数据集LCQMC和BQ上展示了其优越性

图11句子的图表示
Fig. 11 Graphical representation of the sentence

下载: 原图 | 高精图 | 低精图
基于图匹配的方法(Graph Matching Network, GMN)同样构建了有向图结构来表示文本内容。与传统方法不同的是,在该模型中每个顶点代表可能的词或字符,并通过边连接相邻出现的词或字符节点来构建关系网络[61]。该模型采用分层计算的方式进行相似度评估:首先利用消息传递机制进行信息融合,在此基础上完成节点特征更新以确定最终表示形式[62]。具体而言,其匹配机制利用图神经网络技术对两段文本进行对比分析,并通过迭代优化过程逐步提升对语义关系的理解能力。实验结果显示,在经过BERT微调后,该方法的表现显著优于ESIM和BiMPM模型,并且与BERT-wwm等基线模型相比表现出色(见表3)。
表3 GMN在两个中文数据集上的准确率比较**( % )**
Table 3 Accuracy comparison of GMN on two Chinese data sets
| 模型 | BQ | LCQMC |
|---|---|---|
| Acc | Acc | |
| BiMPM | 81.9 | 83.3 |
| ESIM-word | 81.9 | 82.6 |
| BERT | 84.5 | 85.7 |
| BERT-wwm | 84.9 | 86.8 |
| GMN | 84.2 | 84.6 |
| GMN-BERT | 85.6 | 87.3 |

下载: 导出CSV
4 文本匹配的应用与发展
在GLUE基准[36]中涉及的MRPC、STS-B、QQP、MNLI、QNLI、RTE和WNLT等任务均与文本匹配相关联;这些任务的核心均为识别两个句子之间的关联性关系;这充分验证了模型在提取语义信息方面的能力;而文本匹配模型的本质即是对自然语言的理解与获取能力进行验证。机器问答是BERT模型最为擅长的应用领域之一;给定用户的自然语言查询问题Q;系统需从海量候选文本中匹配出一个语言片段;以便准确回答用户的问题。这种基于阅读理解和智能问答的系统已受到行业界的广泛关注;尤其是在新闻报道、智能客服、智慧教育及智慧医疗等多个领域中;下面着重介绍其在医疗领域的研究进展。医疗领域的专业术语丰富且应用场景具有严格要求;这导致通用数据集上预训练模型在医疗场景中的表现往往不尽如人意;因此研究者们致力于构建该领域专用的数据集以解决这一问题。例如Abacha等[63]提出了针对医学领域蕴含识别(Recognizing Question Entailment RQE)的任务数据集;旨在判断两个问题是否存在包含式相关关系这一核心任务设计依据是医疗问答通常需将患者的口语化咨询问题总结为简短的单句医学专业表述文本;Mrini等[64]基于前述RQE数据集进行了数据增强和多任务学习工作;以期提升医疗问题理解模型的效果实验表明经过增强的数据集使BART模型性能显著提升;Zhou等[65]则提出了基于新冠肺炎相关医患对话数据集并在此基础上开展实验研究同样采用多任务学习方法取得了优于基准生成模型的效果对于医疗领域的文本匹配问题目前多数研究仍采用预训练再微调的方法然而由于现有数据量通常较小构建高质量的专业化数据集面临较大技术和经济挑战因此数据增强知识引入以及多任务学习已成为主要的研究手段
面对数据规模的持续扩大与文本长度的增长,并伴随更多元化的特征出现的情况下, 传统的深度文本匹配模型在应对新需求方面表现不足. 如何构建更具优势的新框架或模型仍是我们未来研究的重点之一. 目前主流预训练模型具备多任务学习的基础, 但在特定场景下仍显力不从心, 其鲁棒性问题也引发了广泛的关注[66]. 目前围绕构建更优质新模型有三条思路: 第一条是将知识融入模型. 文本匹配与知识图谱结合的语言建模可能是一种隐含的知识获取方式[67-68]. 预训练语言模型在下游任务中的表现与其积累的知识量存在密切关联, 同时人们也关注其是否能够作为知识库[69-70]. 将知识融入预训练过程或从中提取知识均能对自然语言理解的发展产生积极影响. 第二条是对现有预训练方法进行改进. 当前流行的大参数预训练语言模型不仅计算资源消耗大而且训练时间漫长, 因此众多研究致力于探索新型训练方法以缩减参数规模并提升性能[71]. 结合更为高效的预训练方法必将在提升文本语义匹配能力方面发挥重要作用. 第三条是推进多角度多任务学习. 除了关注每对候选文本外, 还需探究候选答案间的语义交互机制. 由于各任务间存在一定关联性, 多任务学习本质上是一种隐式的数据增强手段, 能有效提升泛化能力. 文献[72]的研究表明在新领域小样本条件下该方法具有显著优势. 第四条则是探索基于图结构的新语义组合方法如图神经网络等技术.
5 结语
本文旨在系统性地总结基于深度学习的文本匹配技术及其研究进展。从语义组合的角度分析,在CNN、RNN及注意力机制等模型中均具备学习并整合语义信息的能力。本文选取了若干具有代表性的模型进行深入探讨。针对长文本及中文场景设计的深度学习匹配模型展现出显著优势。基于Transformer架构的大规模预训练模型得益于科学化的预训练策略、海量数据以及丰富的参数量,在支持下游应用方面展现了卓越的效果。在当前深度文本语义匹配领域的研究中,预训练加微调的方法占据重要地位。
