Efficient Question Answering with Question Decomposition and Multiple Answer Streams
文章目录
标题
摘要部分
研究简介
浅层问答模块
通过验证的方式实现了答案流的整合
运行过程描述
评估与讨论内容
结论部分
题目
通过问题分解和多答案流实现高效问答

论文地址:https://link.springer.com/chapter/10.1007/978-3-642-04447-2_49
摘要
自2007年起推出的IRSAW系统整合了基于深度问答方法的答案生成器InSicht以及多个浅层答案生成器,并配备了一个逻辑验证器用于评估答案的一致性与完整性。该系统采用分层架构设计:首先通过解析器将文档内容转化为可计算的形式;其次运用预设规则对这些形式化的知识进行推理;最后实现从问题陈述到具体回答的完整映射过程。在第8届CLEF问答评估中(QA@CLEF 2008),该系统主要实现了两大创新:一是采用了基于问题系列而非报纸文章的内容训练策略以提升后续性能;二是优化了多层答案分解方法以提高回答精确度与多样性。此外,在浅层处理环节增加了事实索引FACT以及浅层语义网络匹配模块SHASE以增强答案生成能力;同时取代了原有的单一验证机制并引入了更具效率的RAVE验证工具以满足实时评估需求。基于上述改进方案,在德语文本处理中实现了单语言版本(德文)及双语言版本(英语与西班牙文)的回答生成能力;并通过错误分析揭示了现有深度模型的主要局限性及其潜在优化空间
简介
德国问答 (QA) 系统 IRSAW(基于语义注释网络的智能信息检索)采用了深度与表层结合的方法进行操作。InSicht 是深度答案生成器,在其运作过程中首先运用句法语义分析器将文档转化为意义表示;随后依据规则对意义表示进行推理运算;接着通过对问题与文档中意义表示的匹配实现对目标意义结果的识别;最后从文档的意义表示中自动生成符合自然语言规范的答案内容。为了使系统能够更好地处理复杂信息,在意义表示构建阶段特别设置了一组模块从多个角度完善系统内层意义表示体系:一方面可针对文档(及问题)中的同指关系建立专门解决方案;另一方面也可针对包含混合文本与句子的段落提供强大的处理策略;此外系统还特别引入了一个基于简单规则运行的答案生成器 SHASE 以辅助完成特定任务需求下的内容输出工作;在多个候选答案流产生后 RAVE 系统将通过逻辑验证机制对其质量进行全面评估并在综合考量各候选答案优劣的基础上最终确定最佳响应方案
在QA@CLEF 2008年对InSicht系统进行了一些改进的基础上,并对比话处理策略与QA@CLEF 2007年的项目相比,在包含指示代词的问题对话数据集上采用了CORUDIS [1]来进行相关研究。研究过程主要包含以下步骤:首先,在特定问题系列中为所有代词至名词指代关系进行了详细标注,并从中生成了总共29个样本问题;其次,在多次尝试后发现仅使用两个QA@CLEF 2007问题无法满足需求的情况下,我们采取了从所选序列中抽取连续的问题片段作为额外样本;最后将获得的462个样本输入至CORUDIS的标准训练流程中进行学习。值得注意的是,在此过程中我们还考虑到了答案项作为先行词的可能性,并基于仅有的两个QA@CLEF 2007实例发现了相关性较高的结果;这一改进于当年成功应用并扩展到了四种相关场景。
该系统性方法已被成功整合至QA@CLEF 2008中的InSicht模块中。这种方法旨在通过将复杂问题拆解为更简单的子问题来进行处理:具体而言,在提出初始简化解题思路的基础上(即确定关键分步目标),其相应的答案会被用来重构出一个修正版的问题表述形式(即后续阶段的具体求解方向)。例如,在" Welches Metall wird zur Goldw¨asche benutzt? " /哪种金属用于洗金? (qa08 192) 这一具体案例中(编号qa-08-192),其分解过程将产生两个子句:一是" Nenne Metalle " /Name metals;二是给出答案:Eisen/iron 和 Quecksilber/quicksilver;同时也会生成修正版的问题表述形式:" Wird Quecksilber zur Goldw¨asche benutzt? " /水银是否用于洗金?通过这种方式进行的问题拆解策略,在实际操作中往往依赖于相关文献资料的支持:具体而言,则是说原始答案通常会依赖于多个来源的相关句子来进行支撑。
为了考察自20世纪初以来德语QA@CLEF问题的可分解性变化,我们采用分解标记的方式标注了从2O世纪初年开始所有德语QA@CLeF问题(其中包含关注释、分类以及分解方法等详细信息,请参阅文献[3])。O世纪末期间,共有O.5%的比例(具体数值待补充)的问题被标记为可分解的问题。这一比例低于此前几年:例如,在 past few years中该比例通常维持在约17.1%左右。例如,在Qa@cLeF O世纪末中提供了两个具体案例:qa编号为'qa-96-44'的问题询问的是'Osterreich有多少个州?',以及编号为'qa-96-19z'的问题同样涉及相关主题。正如预期所示,当关闭可分解决策时,一些答案(例如'qa-96-19z')将无法找到相应的解析
性能优化工作表明,在深度生产器 InSicht 中增加功能可能会带来更好的效果;然而,在某些情况下这可能需要较长的时间。为此探索了几种性能提升的方法。因为基于后向链接应用逻辑规则所导致的查询扩展会显著增加搜索范围;所以应当采用能够有效减少这种现象而不影响优质答案选取的方法。为此收集了来自 2003 至 2007年的 QA@CLEF 测试数据以及一些独立问题集中的相关统计资料;这些数据主要集中在那些能至少生成一个正确答案的逻辑规则组合上。通过限制查询仅包含成功的规则组合已被证明是一种非常有效的策略;它不仅降低了运行时间减少了约56%而且保持了 QA@CLEF 2008 比赛中问题解答的有效性
浅层 QA 子系统
除了深度生产器之外, IRSAW 现在还采用了四个浅层候选答案生产器: QAP [4], MIRA [5], FACT 和 SHASE. 后者两个是为 QA@CLEF 2008 增加的.FACT 使用基于事实的知识库,其中已对关系三元组进行了索引,例如 name2date(\Galileo Galilei", 8. Januar 1642"). 关系三元组采用与 MIRA 生成器中使用的相同形式. 关系三元组已从各种来源自动提取,包括 PND [6], 首字母缩略词数据库 VERA, 来自 ISO 4217 的货币名称以及来自 Wikipedia 和 CLEF-News 语料库的语义网络表示的同位语. 要回答问题,通过机器学习 (ML) 技术确定问题的关系三元组,并利用问题中的关键字填充三元组的一个参数位置. 然后从匹配三元组的另一个参数位置提取答案. 包含问题关键字以及精确答案字符串的文档句子将作为答案候选的支持返回.
基于问题与文档句子的语义网络表示生成答案候选。通过句法语义分析器确定的核心节点即为问题焦点节点。为了评估核心节点与其关联的语义关系、层次顺序以及相关实体信息,请参阅 [7]。这些特征在文档网络中相应节点处进行特征匹配。匹配到的相关节点即为候选答案来源。通过该系统自动生成的答案字符串配合附带的文档句子即可作为最终返回结果。
通过验证合并答案流
InSicht 流与浅层 QA 流中的潜在回答通过 RAVE(实时答案验证引擎)实现整合与优化,并在此基础上生成最终结果。RAVE 作为一种以逻辑为基础的设计用于实时问答系统的工具,在当前研究领域具有重要的应用价值与创新意义。为了确保系统高效运行,在实际应用中我们发现完全解析所有潜在回答对于实时设置下的处理能力来说过于复杂,并且因为实时设置下处理大量候选过于复杂而放弃这一方向选择。因此,在实际运行过程中我们采用了不同于传统方法的设计方案:即仅用于评估支撑相关段落的内容质量,并在此基础上判断最终输出结果的质量表现如何?此外我们还发现如果问题所需信息能在段落及其背景知识中找到则该评价标准可以完全独立于特定候选评估其相关性并据此指导后续优化过程这一思路得到了广泛认可并被后续研究者所采纳作为新的研究方向
训练数据基于运行QA@CLEF 2007系统的输出结果而被获取。在这一过程中,在总共检索到的27,919个段落中提取出21,447个作为候选答案的问题片段,并对这些候选进行了标注以标记出包含正确答案的部分。通过交叉验证实验的结果表明,在该任务上采用重新加权后的决策树集成方法具有良好的适用性。具体而言,在计算每个答案的关键证据时,默认使用机器学习方法生成的支持片段来估算回答正确的可能性概率值,并将所有候选答案的相关证据进行汇总计算以确定最终的支持程度得分。RAVE系统采用了基于浅层特征筛选的方法来预排序到达的答案列表,并在计算最有希望候选答案的过程中逐步引入改进后的逻辑分数评价机制直至超时时间限制的到来为止[8]。与之相比,在InSicht系统中生成的回答候选由于采用了以精度为导向的技术而无需进行传统的逻辑验证步骤;这些候选的回答质量直接由其自我评估机制决定,并基于系统找到其替代理由的数量来动态调节最终的质量评分标准[9]。

表 1. QA@CLEF 2008 德语问题集的结果(CWS表示基于置信度的加权分数;MRR表示平均倒数排名;R代表正确答案、U代表未得到支持的答案、X代表不准确的答案、W代表错误的回答)。为了确保准确性,请注意只有第一个被确认为正确或未得到支持的答案才会被视为正确的答案。值得注意的是,在本研究中只涉及到了 fuha081esde 这一系统对总共 199 个问题进行了评估
运行描述
所有带有前缀 fuha081 的运行全部采用了依靠 ML 的 InSicht 验证分数生成机制;而带有前缀 fuha082 的运行则采用了自我评估系统InSicht。在双语问答实验中,我们采用了在线翻译器Promt(http://www.promt.com/)将问题从英语或西班牙语转译为德语版本。基于以往 CLEF 活动的经验可知,在线机器翻译服务(MT)相比而言Promt提供的译文质量更为出色;然而我们发现Promt目前正在测试中的一份新型 MT 服务具有显著优势。
评估与讨论
我们参加了 QA@CLEF 2008 比赛,在德语文言任务中完成了两次单语任务运行,并在英语和西班牙语文言作为源语言、德语文言作为目标语言的情况下完成了四次双语任务(见表 1)。InSicht 系统所采用的句法语法分析器旨在通过计算其中的共指消解后的意义关联来评估德语文言问题的复杂性。
比前几年的数据有所减少

表 2. QA@CLEF 2008 的问题类别和问题类别频率
表二展示了深度答案生成器InSicht的错误分析。基于导致无法找到正确答案的问题类别进行分析;QA@CLEF-2XX年的分类与此一致,在QA@CLeF-2XX年中新增的问题系列则需要引入一个新的q.incorrect共指类别(用于处理共指解析错误)。进行了1OO个InSI<'t回答错误问題样本的随机调查.对于涉及多个类别问題,在处理早期组件时仅进行了注释.与对QA@CLeF-XX年分折相似的情况相比较,在InSI<'t系统中存在两类主要问题是文檔解析器出现了問題以及文檔與問题表示之間缺乏推理
进一步考察了浅层 QA 子系统 7 的性能表现,在处理 200 道题目时(每个问题平均检索到约183.8段支持文本),总计发现了36,757条独特的支持段落(其中约有1,264条包含了正确答案)。值得注意的是,在这其中有165道题目至少有一条包含正确答案的支持段落(或包括NIL情况共有175道题)。表3详细列出了IRSAW shallow子系统实现的答案生成器所达到的问答性能指标:包括每个问题平均可选答案候选数量 (#candidates)、平均正确答案数量 (#answers)、基于正确支持段落的比例 (#pass-rate)、基于正确支持段落的精确度 (#pass-prec)以及已回答问题数量(仅指那些至少获得一个正确答案的问题)。此外还计算了已回答问题数占总拥有支持文本的问题数的比例(即本例中该比例为165/总拥有支持文本的问题数)。

表 3. 浅层答案生成器的提取性能
所有浅层生产者的回答率总和为0.8, 显示出浅层生产者筛选出的候选答桉几乎涵盖了被检索到的相关片段中的主要答桉。尽管 shallow 子系统框架的最佳选项能够准确回答132个非零问题(包括零问题在内则达到142个), 然而 RAVE 只实现了46次正确的选择, 这一结果提示我们需要进一步优化: RAVE 善于识别那些包含答桉的部分, 然而它通常无法区分在这些部分中筛选出的真实候选取和错误提取。验证器则需通过更有效的特征来连接候选取 ans 和这些支持性片段的结果。
此外,在开发 RAVE 的过程中需对现有功能(特别是其类型检查方面)进行基础优化以提升性能表现。因在生成训练数据的过程中遇到了技术障碍导致注释仅涵盖2007年测试集中151个问题及不足30个定义性问题;为确保获得更好的机器学习性能需求则需增加注释数量以弥补这一局限性。尽管如此,在修正决策树归纳策略后的问题得以解决:RAVE 在 top-1 答案中发现了60项正确结果以及102项支持段落;平均每题耗时仅为1.48秒这一指标较之前有所提升表明系统性能得到了显著优化;而在开发初期此阶段曾是系统性能瓶颈之一但经过此次优化已不再影响整体响应速度现平均响应时间为每道题约需等待约2分钟即可完成处理
结论
QA 系统 IRSAW 在 QA@CLEF 2008 中经历了多种改进措施的成功应用。基于生成适合的可用训练数据的方式对系统进行了优化与调优。InSicht 深度答案生成器将问题分解为融合来自不同文档或语料库信息的新途径得到了广泛认可。通过增加两个浅层答案源显著提升了系统的稳定性与可靠性。随着系统复杂性的提升其运行时性能成为关键考量因素但并行化与增量处理等优化技术帮助找到了更有效的解决方案同时保证了响应时间在交互式查询场景中仍具竞争力.RAVE 原型验证表明基于逻辑的验证技术适用于实时 QA 应用但在后续开发阶段需要进一步丰富功能并提供更为完善的训练集支持
