Branch-Solve-Merge Improves Large Language Model Evaluation and Generation
题目
分支-求解-合并改进了大型语言模型的评估和生成

摘要
大型语言模型(LLM)广泛应用于多种领域的人工智能系统开发与性能评估工作
具体而言
在有约束条件限制的故事生成任务中
引言
大型语言模型(LLM)在多个领域中被广泛应用(拉德福德等, 2019;布朗等人, 2020;OpenAI, 2023bChowdhery等人, 2021;Touvron等人, 2018年)。在评估生成内容方面发挥着越来越重要的作用(郑等人, 2017;白等, 1995)。然而,在处理复杂任务方面仍需应对一系列具有复杂需求的任务(例如需要处理多种不同的约束条件)。这些挑战主要源于模型缺乏自洽性和规划能力(姚等, 1988布贝克等人, 1967)。近年来的研究正致力于开发能够逐步优化生成过程的方法(白等人, 1965Madaan等人, 1978;甘古利等人, 1974;姚等, 1985c陈等, 1986;李等, 1987;黄等, 1988)

图1展示了采用LLaMA-2-70B-chat模型进行LLM响应配对评估的BRANCH-SOLVE-MERGE范例。当面对一个问题时,并为两个LLM生成的答案A与B进行比较时,则BSM会生成一个偏好判断。分支模块基于问题生成专门针对该问题的评估方案,在这种情况下,则该方案涵盖了多个评价标准;而求解模块则会独立地评估每个标准(分支)下的相应输出;然后将各个评价结果整合起来,并根据综合考量判定出更为优质的响应,在此情形下则判定答案B更为优秀
在本研究中,我们提出了一种名为分支-求解合并(BSM)的方法,旨在有效解决多种复杂性自然语言处理任务的关键分解方案。该方法作为一个大型语言模型实例(Schlag等人,2023;Dohan等人,2022),主要包含三个关键组件:分支模块、求解模块以及合并模块。这些组件通过特定提示参数化调用底层LLM,以实现对复杂任务的系统性处理过程。具体而言,对于任意用户提出的任务目标,"分支"组件将通过创建多个并行子任务来分解解决方案,其中每个子任务由独立的分支标识,表示解决整体问题所需的具体功能部分;"解决"组件则分别处理这些独立子问题;"合并"组件则整合各子问题解决方案以形成最终整体结果。我们将该方法应用于两个极具挑战性的实际应用领域,即自动评估系统中常被使用的模型响应评估场景(Dubois等人,2023)及LLM在执行模型响应评估中的传统应用领域(郑等人,2023)等场景中,但发现当前LLM性能仍未能达到人类水平
评估逻辑线性模型的系统性挑战较为复杂,因为它们具备生成长文本答案的能力(郑等,2023),但其可靠性存在严重缺陷,主要源于系统性偏差(郑等,2023;吴和阿吉,2023;Wang等人,2023b),同时该方法对人工设计的评估机制存在依赖关系,限制了其推广到方法计划中的可行路径,容易引入人为干预的非故意偏差(刘等,2023;吴和阿吉,2023)。不同分支均可运用该方法框架进行任务处理,需分别关注评估的具体维度及标准设定。受约束文本生成技术研究现状现有大型语言模型在受限文本生成方面表现不足,例如在撰写需包含多个概念的故事时往往难以满足要求(Bubeck等人,2023;姚等,2023a)。BSM通过将生成过程分解为各分支独立完成故事片段构建并最终整合的方式实现了约束条件下的内容生成效果
该研究采用BSM这一方法论对两个关键问题展开系统性研究,并基于图1和图3展示了相关实验数据.通过系统评估与对比分析实验数据,BSM展现出显著的优势.具体而言,该方法在MT-Bench基准测试中取得显著成绩:在多领域问题评估方面,通过引入特定提示机制,BTM显著提升了LLM的回答质量.与现有基准相比,BTM在解决多轮对话任务方面表现出更强的能力.例如,在涉及写作、编码、推理与数学等多个领域的基准测试中,BTM的表现均超越了现有方法.进一步研究表明,通过引入特定提示机制,BTM显著提升了LLM的回答质量.
BSM还提高了LLM评估的一致性。它显著降低了基于LLM的评估者的位置、长度和自我增强偏差。例如,BSM与美洲驼-2-70bc减少了高达50%的绝对位置偏差。重要的是,GPT-4的BSM还提高了GPT-4在评估自己的反应时作为评估者的可靠性。对于受约束的故事生成任务,BSM生成更连贯的故事,与零镜头基线相比,GPT-4法官在93%的情况下更喜欢这些故事。它还将约束满意度提高了12%。总的来说,BSM为解决具有挑战性的多方面语言生成和评估任务提供了一个规划和任务分解的框架。由于这种方法是作为一个通用的逻辑管理程序来设计的,所以它可以应用于任何底层的逻辑管理和潜在的各种任务。
相关工作
LLM程序用于分解复杂的任务。类似于BSM的LLM程序采用了一种算法来解决复杂的问题——将问题划分为多个步骤,并通过不同的提示参数化到一个底层的LLM(Schlag等人, 2023;多汉等人, 2022;克雷斯韦尔和沙纳汉, 2022)。复杂的任务通常需要执行任务分解(等, 2022)以及计划(姚等, 2022;黄等, 2022;姚等, 2023b;宁等, 2023)。这些研究激发了许多关于高级激励方法的新进展(Khot等人, 2021;周等, 2019;王等, 1986a;Dua等人, 1998;萨哈等人, 1977b; Khot等人, 1965;古普塔和肯巴维, 1984; Cho等人, 1988)。然而,在现有研究中大多数工作集中于受益于顺序分解的推理问题(如常识性推理、符号推理或数学推理)。与之不同的是我们研究的任务——它们受益于分支到并行分解——特别是通过评估和约束文本生成来进行语言模型挑战性的任务开发。此外它也是一个特定的LLM项目同时也是思维图形提示的一个实例(雷等, 1976)因为执行轨迹采用了图形化的形状表示GoT定义了一系列LLM程序包括细化回溯以及跳过图节点但我们在这里不考虑这些细节我们的工作则专注于开发一个固定的特定程序并将其应用于评估或改进语言模型中的挑战性任务。
在当前技术环境下实现生成式模型性能提升的关键挑战之一在于建立统一且可量化的评测体系(Liang等, 1999; Smith等人, 1987)。对于此类复杂系统而言, 实体评测既具有双重挑战性(Smith等人, 1987)又极为高昂的成本投入(Bubeck等人, 1966; Chang等人, 1985)。尽管如此, 基于强化学习超人机训练方式(RLHF)生成的结果呈现出显著的对比表现更为接近(Ouyang等人, 1967; Wang与Li, 1986)
受限制性文本生成研究取得进展
分支-求解-合并
首先我们引入了一系列符号以正式定义BSM系统。令pθ代表参数配置为θ的LLM模型。此外我们定义x = (x₁, x₂, ..., xₙ)表示一个由n个连续令牌组成的序列其中pθ(x)代表在给定序列x下模型输出的概率分布。BSM作为一个基于LLM的计划旨在解决复杂的规划基础任务并集成三个关键神经网络组件:分支求解与合并机制。每个组件均通过独特的提示信息与LLM模型交互以完成特定任务。随后建立在这些组件基础之上的一套自动化流程负责协调各环节的操作流程并最终实现系统的整体目标。
LLM系统由分支、求解与整合三个核心模块构成。对于任意任务来说,在BSM框架下,控制器被定义为一种算法性机制,并负责规划各子模块间的转换关系。通过功能形式表征这三个关键组件:branch函数用于执行决策流程、solve函数负责问题求解、merge函数处理数据整合。接着,在BSM框架下进行系统整合后得到的结果y,则可被视为由输入任务实例x以及各组件实现共同作用下的输出。
给定一个任务支路模块生成多个分岔任务其中每个分岔由一个独特的分岔标识符表示分岔成子问题的方式实现了任务分解使得各个部分能够独立并行解决进而组合各个部分的解决方案以形成整体解决方案从形式上讲给定一个输入x我们定义了一个"分岔"提示promptbranch(x)它将分岔指令以及可选示例包裹在x周围以该提示为条件LLM pθ将生成一组k个子问题X={x(1)x(2)…x(k)}其中k被称为分岔因子这些子问题是通过一系列符号回归自动生成的X∞pθ(X|promptbranch(X))值得注意的是我们的方法灵活性源于这样一个事实即对于任何一个具体的问题LLM本身决定生成哪些子问题以及相应的分岔因子数目
该模块旨在将分支任务的输入x(i)转化为相应的输出y(i),从而解决当前的问题。与之类似的是‘求解’提示promtsolve(x(i))该提示指示LLM针对每个分支生成相应的解决方案y(i),其中LLM为每个分支生成一个解决方案的概率分布表示为pθ(y(i)| prompt solve(x(i)))。
融合模块作为核心机制存在。它整合各子问题的解决方案并构建主问题的整体解决方案。这一过程是利用"merge"提示promptmerge(Y)实现的。该提示引导系统生成一个优化后的综合解Y∞pθ(Y | promptmerge(Y)) ,其基础条件是基于一组子解集合Y = {y₁, y₂, …, y_k} 。从理论上讲 ,该模块训练了一个聚合器函数 ,从而实现对一组值(借助聚合运算符)或文本片段的有效整合 ,具体取决于当前任务需求 。随后 ,我们将通过两个具有挑战性的NLP应用案例展开研究:LLM评估与受限生成实验 。
BSM:案例研究与LLM评估任务描述。我们考察基于LLM的聊天代理人的评估任务。从形式上讲, 给定一个开放性问题以及两个LLM代理人的两个回应, 该任务要求生成一种偏好排序, 区分哪个回应更为优秀或判定其是否相同(如图1所示). 评估LLM的回答具有难度的原因繁多:
- 对任意问题的详细回答。为了提供一个通用的助手,用户可以从任何领域提出任意的问题,LLM可以给出长格式的回答(Zheng et al,2023)。基于初始模型响应,用户可以提出后续问题。根据问题的类型,评估过程必须考虑问题的意图、对理想回答的期望以及评估的标准。
- LLM评估者容易产生偏见。基于LLM的评估者不可靠,并且容易产生不同的偏差,包括(a)位置偏差:评估根据响应的编码顺序而变化,(b)长度偏差:倾向于更长的响应,©自我增强偏差:LLM评估者倾向于自己的响应(郑等,2023)。
- GPT-4作为评估器是昂贵的。虽然像4这样的基于API的模型是相当好的评估器(郑等人,2023),但这些模型是专有的,并按生成的令牌向用户收费。目前的开源替代方案与人类的相关性较差,并且更容易受到上述偏见的影响。
- 手工设计评估计划是不可扩展的。一个强有力的评估者应该能够很好地概括,能够评估对任意问题的回答,因此,手动设计每个任务的评估计划是不可取的(刘等人,2023)。例如,参见图1,其中评估对“写作”问题的回答需要考虑诸如“相关性”、“清晰度”等因素,而如果问题是“编码”问题(参见附录中的图2),则应该评估“代码正确性”、“代码可读性”等。
因此,在针对这一多维度评估任务的研究中,我们开发了一个BSM版本的具体而言,并在本研究中特别关注于对话问题。为了便于讨论,在此我们对第一个问题标记为Q1,并将后续的问题标记为Q2。假设LLMs A和B分别针对Q1输出结果r_A=1和r_B=1;针对Q2则输出结果r_A=2和r_B=2。随后由LLM评估模块负责制定评估计划——即确定一套评估标准,并根据这些标准对各系统的响应进行评价。
该模块仅根据输入的问题进行判断,在第一轮中定义为分支q₁;在第二轮中,则基于前两轮的问题标记为分支q₁,q₂。其输出包括一组评估标准branch(q) → {ci} k i=1, 其中每个ci都是标准化标题(如"相关性")及其简要说明(如"衡量响应与用户查询的相关程度"),并基于夏威夷必看景点这一指标来评价。如图1所示,在处理不同类型的问题时,请参考图2中的示例说明。
评估系统的求解模块基于预设标准对生成的回答进行系统性比较与质量评估。其输出结果将每个回答转化为两个分数(通常在固定范围内),这些分数由评估系统根据解答指令确定。例如,在应用评估标准c时,问题q的求解过程可表示为:solve(q, r_A=1, r_B=1, c) → {s_A, s_B}。值得注意的是,在此过程中存在顺序依赖性,并且该模块会生成详细的解释以及相应的评分。
如图1所示,在基于LLaMA-2-70B-chat架构设计下的融合模块中展示了该研究的核心内容
评估LLM项目的具体情况。算法1详细说明了整个LLM程序的具体实现步骤。基于位置偏差的影响,在求解模块中调整响应顺序以执行两次独立计算以获得BSM结果。当两个订单的一致判断达成共识时,则最终判定结果为"A"或"B",否则判定为平局。
BAM作为研究领域的一种方法论框架,在分析性别描述受限的任务时具有显著应用价值。在该领域中应用BAM框架进行探索后发现,在另一个特定领域中的LLMs能够展示出其广泛的适用性。我们探讨了一个受到限制的故事生成任务——基于一组给定的概念集合l。根据所有指定的概念构建连贯的故事y(参考附录中的图3)。当提供的概念数量显著增加时, LLMs可能会优先省略某些关键信息或产出不连贯的内容.
此任务要求综合考虑多种约束条件,在复杂系统中实现多目标优化配置方案的设计与实施
约束条件下求解的故事模块solve(li, t)→yi基于概念li及其相关故事主题t的部分内容作为依据来生成与这一主题相关的部分内容,并且包含li中的所有概念信息。直观上而言,在较少的概念支撑下完成受限制的任务会更加容易。
用于约束生成过程的合并模块。该模块将两个中间故事上的(y₁, y₂)整合为一个y条件,并融合这两个故事以生成最终的故事y。因为这两个中间故事属于同一个高级主题,所以这种融合能够确保最终故事的一致性。总体而言,BSM通过解决子问题来增强约束满足度,并通过顶层计划来保持整体一致性
实验
LLM评估
进行实验的数据集设置中采用了MT-Bench数据集作为实验依据。该集合旨在评估LLM在多轮对话中扮演有用的人工智能助手的角色,并判断其他LLM对其响应的有效性(郑等人, 2023)。该集合涵盖了八个不同的指令类别,在写作、推理、数学以及编程等方面均有涉及。评价标准方面,则采用了四个具体指标来测定BSM的表现(包括基准模型)。这些指标涵盖了准确性、效率以及稳定性等多个维度
- LLM-人类协议(Ag)。郑等(2023)的研究中所报道的内容表明,在第一回合与第二回合的问题中以及它们之间的组合中都存在LLM-人的协议比例。
- 位置偏差(PB)。为了解决基于对数正态分布导致的一致性问题这一难题,在本研究中提出了位置偏差的概念,并将其定义为按照回答编码顺序发生变化的部分样本。
- 长度偏差(磅)。本研究通过研究LB这一指标来分析样本中的情况:其中一部分样本因人类偏好较短的回答而被偏好处理;同时在模型评估者视角下这类样本却表现出较高的倾向性选择较长的回答。
- 自我增强偏见(SB)。SB即指偏好其自身生成的回答这一现象。
单独分析这种偏差的难度较大,在了解模型在什么情况下做出回应行为是一个可解释性难题。
然而,在本研究中我们所关注的问题是:当一个逻辑推理模型在其自身输出上进行评价时(这是将该系统视为评价者的常见情景之一),BSM是否会带来更好的评价效果以及更具可靠性?为此我们采用了以下方法来进行验证:首先采用GPT-4作为基础判断系统,并从MT-Bench基准中选取了部分样本子集(其中部分反馈同样由该系统生成)。进一步地若BSM与GPT-4协同作用后能获得人类对此类样本更高的认同度,则表明即使在系统A对其自身输出进行判断的情况下(同时加入BSM)将有助于提升系统的自我评价能力。(尽管这一观察并不直接反映系统自我评价是否具有较少的Subjective Bias SB)但它确实能反映系统自我评价与人类间的一致性(即使当该系统对其自身输出进行评价时)。另外值得注意的是尽管这一观察并不直接反映系统自我评价是否具有较少的Subjective Bias SB)但它确实能反映系统自我评价与人类间的一致性(即使当该系统对其自身输出进行评价时)。
虽然许多先前的研究都突显了这些偏见的重要性(郑等, 2023;Wu 和 Aji, 2023),我们在同一评估框架内通过具体指标对所有这些指标进行了量化衡量。从概念上来说,“Ag”评估关注准确性,“PB”则考察基于LLM的评估器的一致性。这些是关键方面的互补部分,在理想情况下,一个全面评估者应在所有指标上均表现出色方能实现有效的应用。我们开发了BSM模型:美洲驼-2-7B-chat、骆马-33B、美洲驼-270B-chat以及GPT-4,并实现了零触发机制以支持各模块特定指令的操作假设无法访问分支、求解或合并过程
基线。我们将我们的方法与
- 比较具有相同LLM的零触发提示的两种变体时需要注意以下几点:相对偏好评估器直接生成偏好判断,而绝对评估器则通过将每个响应与预设阈值比较来确定是否符合预期。
- 计划和求解提示(Wang等人, 2023a)的核心是制定评价标准,但这种标准并非独立地分别求解,而是通过一次LLM调用来综合考虑所有可能的情况。
- 自洽性(Wang等人, 2022)则采用了一种独特的采样方法,从提示的LLM(温度为0.7)中获取多个评价,并通过多数投票的方式得出最终结论。
为了使比较更加公平, 我们采用了自我一致性抽样的迭代次数与BSM中的分支因子相一致的方法. 此外, 在BSM中存在一个简单的特殊情况, 即其分支模块生成多个基于同一底层问题的不同实例(而非子问题), 并通过采样不同解决方案来求解这些问题. 合并操作采用多数投票机制以达成一致. 有关详细的数据集信息及其实现方案, 请参考附录A.

表1:针对MT-Bench数据集中的写作相关问题,在零射击LLM评估方面(包括相对与绝对评估)、规划与求解过程比较中以及自洽性和BSM(Between-System Message)的表现对比中进行了分析研究。所有方法均采用了LLaMA-2-70B-chat作为基础模型架构。我们分别计算并报告了第一轮与第二轮问题上的LLM-Human一致性评分(Ag),位置偏差(PB)与长度偏差(LB)。其中BSM策略通过提升一致性评分表现,在减少位置偏差与长度偏差方面取得了显著效果
研究通过表1详细评估了基于LLaMA-2-70B-chat模型的分支系统方法(BSM)的效果,并特别聚焦于MT-Bench基准测试中与"写作"相关的问题。本研究的主要发现如下所述:整体上表现出较高的一致性,在与所有基线方法相比中展现出显著的优势;通过提高LLM与人类的一致性并减少系统偏差;值得注意的是,在生成多个解决方案时采用分支策略能够显著提升效果;该方法不仅超越了自我一致性标准(如前所述),而且通过将复杂任务分解为独立子任务并逐一解决的方式实现了更高的效率;这一结果具有重要意义:尽管两种方法在计算资源消耗方面具有相似性但采用分而治之策略能够显著提升解决方案的质量

表2: BSM引发更少的自我增强偏差。其中有一个响应是由GPT-4生成的部分,在该情况下, BSM表现出更高的一致性.
第一阶段与第二阶段的问题之间存在显著差异。从评估的角度来看, 第二阶段的问题被认为更为复杂, 因为其构建需依赖于对前一阶段答案的理解与整合。这一现象在所有基准方法(除计划外)中表现得尤为明显, 其结果集中体现在较低的一致性分数上(例如, 在第一个阶段的表现为0.53, 在第二个阶段则降至0.34)。进一步研究表明, 通过分解评价机制的方法能够显著提升对长上下文问题的关注度(如图所示)。具体而言, BSM模型通过引入特定分解策略实现了对复杂任务的支持, 并在此过程中观察到显著的进步幅度(如高达16%的增长)。图2展示了其中一个示例, 其中对于第二个阶段的问题, 模型生成了"遵循说明"作为评价依据

表3对比了基于不同语言模型的评估体系在"写作"问题上的零样本评估方法与BSM的性能对比。结果显示, BSM显著提升了所有模型的一致性水平,并在降低除GPT协议第四版外其他所有模型的偏差程度方面表现更为突出。
降低位置与长度偏差。除了提升LLM与人类的一致性(将PB降低至高达34%),BSM还能够显著减小基于LLM的人工评价值关键偏差(例如:PB降低高达34%)。这一现象直接源于任务分解带来的优化效果;具体而言,在模型分支处理不同标准时:如果'长度'被视为响应评价的标准之一,则该指标仅被计入整体评价体系中的单一子问题(即一个特定的任务),从而使得模型得以专注于并准确评估其他关键指标而非仅仅关注'长度'这一单一维度的问题特征
通过自我增强机制减少偏置。表2通过对比实验数据(与基准模型零炮GPT-4进行比较)评估自增强偏差。研究发现与人类评估结果的相关性提高了3%,这一发现表明即使LLM系统在自我评估其输出时也能够有效降低偏差。此外BSM不仅显著提升了基于LLM的一致性评分(Ag指标)还显著提升了同一评估者生成多个响应的成功率(SB指标)。综上所述该方法作为一种有效的评估工具展示了其优越的适用性和可靠性
该系统实现了所有零发基础远程射的有效性提升,并通过多组测试验证了其通用性能力

表4.1展示了MT-Bench测试框架下针对编码、推理以及数学问题类别上的基准语言模型评估结果。研究证实,在改进基于参照机制的语言模型评估方法上表现出色,并且在数学问题解答能力上超越了现有的主流模型如GPT-4
BSM被成功应用于基于参考的评估体系中。研究表明,在基于参考的复杂任务评估方面(涵盖数学、逻辑推理以及编程(Cobbe等人, 2021;魏等, 2022)),BSM展现出卓越效果。根据以往研究(郑等, 2023),我们采用了以下方法:首先利用GPT-4生成回答,并将其附加至评估提示作为基线指标来考察这些响应的质量;而对于BSM而言,则采用了类似的优化方案:根据其自身生成的回答来调整"求解"模块功能。在此方案下作出的关键假设是:这类回答均为精心策划而非开放式的多步骤思考过程,在一定程度上限制了其变化幅度。表4显示,在所有测试类别中BSM均显著优于零射击基准策略(在编程问题上的一致性评分提升了14%,定位偏移量增加了约35%)。

表5:对MT-Bench中"角色扮演"、"提取"、"题干"以及"人文"问题类别进行LLM评估的研究表单
就数学领域而言,在经过测试后发现该方法甚至超越了最先进的GPT-4评估器,在其全部衡量标准上均超越了该模型。BSM已被广泛应用于更多领域,并已在多个应用场景中展现出色表现。实验结果表明,在处理包括'角色扮演'、'提取'、'题干'以及'人文学科'等问题时,BSM均能产生与现有方法相似的效果,并且表现优异。
BSM方法具备良好的可伸缩性特征。其主要优势之一在于强大的扩展能力——该方法采用统一的任务提示(如图5所示),即可适用于写作分析(如图4所示)。这些提示仅明确了具体任务所需的知识点或技能要求,并非针对某一特定领域;LLM系统则能够根据不同领域的需求自动生成相应的知识点或技能评价内容(如图4所示)。通过对比发现,在不同知识类别中所涉及的知识点或技能分类存在显著差异(如图3所示)。具体而言,在逻辑推理相关的题目中,“清晰思路”这一维度被广泛应用于各类问题;但在编程逻辑相关的题目中,“抽象思维”的应用则相对较少(参见图1中的实例)。
约束文本生成
本研究的数据集设计采用了新颖的方法ology以模拟复杂的对话场景
基于两个维度对生成的故事进行评价:一是生成故事在约束满足程度以及整体质量方面表现如何;二是具体从以下两个指标展开分析:(a)全部存在率(AP),即满足所有约束条件的部分所占比例;(b)缺失率(MC),即未被涵盖的概念所占百分比。其中,“全部存在率”越高,“缺失率”越低,则认为该生成故事越优秀。若某个概念未能以任何词汇形式出现在故事中,则视为未被涵盖;而为了全面评估生成故事的质量,则采用GPT-4这一工具进行对比检验
图7展示了用于评估的提示。为了揭示这种配对比较中位置偏差的本质原因,我们基于LLM在评估任务中的研究发现,采用调换故事顺序的方式进行分析,并仅在结果一致时选择其中一个故事,并进行了两次独立验证。实施细节:采用先进的美洲驼系列模型(包括7B-chat和70B-chat版本)来进行BSM系统的评估;其中所有组件均采用了贪婪解码技术以生成文本内容;针对分叉模块的具体设计阶段,指示LLM将待分析的概念划分为两个主要类别
基线。我们将BSM比作
基于相同的LLM模型,在无监督提示下:当给定一组核心概念时,则会自动构建出相关的叙述。
在指导性指令下设定初始叙事方向:当计划与解决问题的指令结合时,在指导性指令下设定初始叙事方向,并在此框架内逐步发展出新的叙事方向。
通过一致性机制筛选出符合更高标准的故事样本:当系统自洽性要求被设定时,在样本集中筛选出符合更高标准的故事样本,并从中提取最优解。
实验结果与分析表明,在满足约束条件的任务下取得了一定效果。主要实验结果在表6展示。结果显示,在基于约束满足度量的评估下,两种模型变体的表现均优于所有基准模型。此外,在处理更强版本的LLaMA-2-70B-chat模型时(即即使使用更强版本),依然面临较大的挑战性任务,并未显著提升约束满足效果;具体而言,在BSM方法中使用该模型时(即即使采用该方法),有72%的数据集样本未能正确识别至少一个关键概念。这些发现与相关研究的结果一致(Yao等人, 2023a)。详细讨论了BSM在概念缺失情况下的表现分析内容可参考附录b
整体叙事质量方面,BSM不仅能够满足更为复杂的限制条件,并且通常能够生成更加连贯的故事。经过与零镜头提示基线(LLaMA-2-70B-chat)进行面对面比较后发现,在高达93%的时间段内,GPT-4倾向于优先选择BSM生成的故事。这一优势主要得益于BSM的两方面因素:首先,在每个分支中,模型基于少量关键概念进行操作,从而构建中间叙事框架;其次,在整合阶段,模型能够利用这两个中间框架进一步提升整体叙述的一致性和完整性。
结论
我们开发出了BSM计划,并将其定义为一种旨在提升LLM在评估与生成方面性能的方案。通过采用分支、求解与合并模块的不同实现策略,在两个具体案例中验证了该方法在性能优势与扩展潜力方面的有效性。
局限性
我们在下面列出了我们工作的局限性。
- 对于LLMs在安全、毒性以及偏差方面的评估而言, 这类评估对于全面了解LLMs的行为机制同样具有重要意义, 然而, 本文的研究方向并未涉及这一领域.
- 尽管BSM在长度偏差检测方面取得了一定进展, 但单独评估长度偏差仍面临诸多挑战: 一方面, 理解模型为何因长度而非其他因素产生偏好较长的回答属于一个可解释性难题; 另一方面, 人类自身也表现出倾向于选择较长的回答, 尤其是在面对开放性问题时.
- 采用递归或分层BSM框架(即LLMs通过递归分支执行并行子任务)是一个值得探索的方向; 然而, 这种方法带来了计算开销的显著增加.
- 将任务分解为并行子组件通常有助于提升系统效率(例如与顺序分解方案相比)[宁等人, 2023], 但在本研究中, 我们更加强调的是通过改进模型架构来优化任务性能.

表7展示了"推理"问题的无参考评估结果。基于BSM的方法,在"推理"问题上的表现优于零射击基准线,并且即使不依赖参考答案,在随机选取的100个样本中也展现了更好的效果。
附录
补充性实证研究:通过LLM评估A.1阶段的实验设计与数据分析
具体实施细节。该算法1作为LLM程序的展示方案被设计出来。BSM所有模块采用了贪婪解码技术以确保输出的一致性
对于分支模块,在我们的实验中发现该方法能够可靠地生成一个最多包含五个评估标准的任务(我们观察到它严格遵循这些指导方针))。对于合并模块,在实践中发现非神经式的整合指标评估相对简单且在实际应用中表现良好,并因此我们对该方法进行了详细记录和报告。提示如图4和图5所示。基于8个A100 GPU节点构建的AWS集群环境下运行的所有实验数据均经过严格验证并可获取。
该方案采用一种基准方案作为基础,在此方案下各种方法均采用相同的方法来考虑位置偏差,并为两种编码顺序生成相应的判断结果,并根据各自的结果选择最终的判断结论(若两种编码顺序得出的结果不一致,则判定为平局)
特别是,自洽独立地为每个编码顺序计算多数票。
A.2 结果与分析
通过集成BSM与SC方案, 我们进一步降低了位置偏差程度. BSM为每一个子问题或分支提供了一个单一方案. 一种可能的改进是将BSM与自洽机制融合, 即针对每一个子问题或分支提取多个候选方案.
特别地,在每个子问题分支(温度设为0.7)中进行5次采样评估后应用BSM+SC方法。接着,在这些子评估中计算出各自的平均值即可确定其分数。我们对表8中的数据进行了详细比较以分析BSM与BSM+SC的效果差异。尽管一致性分数并未进一步提升但值得注意的是位置偏差在2%处有所下降这一现象提示了两个关键结论:首先BSM通过其独特的分解方法成功构建了足够粒度的子问题从而在这些小问题内部提高了自洽性所减少的方差是有限度的;其次位置偏差适度下降表明这种方法确实具有一定的价值它对于提升整体的一致性起到了直接作用
探讨分支因子的影响范围时发现
表10总结了我们的研究发现。当分支因子设定为4时(即branchFactor=4),我们观察到最高的统一性水平;随后的结果趋于稳定(即收敛)。通常情况下(即一般来说),最佳的分支因子应根据具体问题而定(而不是像以往的研究那样自行指定要评估的参数值);即由算法自动生成该计划(而不是让用户提供人工设定)。随着分支因子数量的增加(即随着branchFactor值的增长),位置偏差持续下降(即不断减少);同时更多的子节点有助于减小最终判断的方差程度(即不确定性)。
BSM对于评价量表表现出稳健性。通常情况下,在进行评估任务时需要设定一套用于评分的回答标准。在表格11所述的情况下(如图5所示),我们通过调整"求解"提示中的评估标准参数来进行不同版本BSM性能对比测试。评分范围为1至5分(主要实验中采用)或1至10分(如图6所示)。经过这种评估尺度的变化调整后发现,在主要实验条件下BSM表现出了相当稳定的性能水平,并且得到了一致且可比的结果。
然而,位置偏差随着尺度的增大而略微增加。

表8展示了在分支、求解和合并(BSM+SC)过程中的各个子分支中实施自洽性策略的效果。通过对比实验结果表明该模型与美洲驼系列大语言模型进行了评估。尽管整体一致性水平未见显著提升,但我们在位置偏差这一关键指标上取得了显著改善。
附加实验:BSM概念缺失对受限文本生成的影响研究。在BSM系统中概念缺失的现象可能源于两大模块中的某一模块:(1)求解模块未能捕获中间故事中的关键概念;(2)合并模块导致部分概念在整合过程中被遗漏。研究发现,在包含LLaMA-2-70B-chat在内的总样本量中约有72%的BSM生成故事出现了至少一个概念缺失问题;其中60%的问题源于求解模块未能捕获相关概念;(18.4%)则与合并模块在整合过程中省略了部分关键点有关

表9:“写作”主题下的LLM与人类的一致性评估结果(涵盖第一轮与第二轮的综合考量)中展示了相关数据。值得注意的是,在计算一致性的方法上采用多数投票法(而非对每个样本的独立评分进行分别分析)。
这表明约束满足可以通过基于递归的BSM方法进一步提高。该方法通过不断将问题分解为更细致的子问题进行处理。然而,递归BSM的计算开销显著更高。我们将这一探索作为未来研究工作重点方向之一纳入考虑。


我们展示了BSM通过LLaMA-2-70B-chat模型在不同类型的问题中生成了各自独特的分支结构(评估计划模块):在上一轮写作环节中涉及问题描述的分支,在下一轮编码环节中则形成了更具系统性的解决方案分支。

图3: BSM通过LLaMA-2-70B-chat进行受限故事生成的示意图。设定一组随机概念后,“分支”模块首先将这些概念分成两组,并生成一个主题。“求解”模块则以这些概念和主题为条件,在每个分支中生成中间故事。“综合”模块整合这些中间故事以产出最终的故事内容,并确保所有原始概念得以保留。


图LLM响应评估任务中的一阶和二阶问题分支提示方案设计中包含两个阶段:一阶提示专注于一阶问题的处理与优化;二阶提示则涵盖两阶段的任务处理策略与性能评价机制设计,并以此构建完整的评估体系框架


图5展示了应对LLM响应评估任务前两轮问题的提示方案。每个提示基于问题、两个LLM的回答以及通过分支模块生成相应的评估标准设计而成。

图6展示了受约束的故事生成任务在分支、求解以及提示整合过程中的具体架构。图中可以看到,在概念层面上的分支提示条件主要关注于如何将复杂的故事元素进行分类与组织。解答相关的提示条件则由两个关键因素决定:一是分支模块所生成的具体概念子集;二是选定的主题故事类型。整合相关的提示信息则基于求解阶段所完成的两个中间故事及其各自所涉及的核心概念集合。

图7展示了基于GPT-4的技术用于评估故事的质量提示。该提示指示模型对使用基线法和BSM生成的故事进行配对比较
