Active Prompting with Chain-of-Thought for Large Language Models
题目
大型语言模型的思维链主动提示

论文链接:https://arxiv.org/abs/2302.12246
项目GitHub链接:https://github.com/shizhediao/active-prompt
摘要
大型语言模型(LLM)规模的不断扩大为各种需要推理的复杂任务带来了涌现能力,例如算术和常识推理。众所周知,任务相关提示的有效设计对于逻辑思维模式产生高质量答案的能力至关重要。特别地,用于复杂问答任务的有效方法是基于实例的提示和思维链(CoT)推理,这显著提高了LLMs的性能。然而,当前的CoT方法依赖于一组固定的人工注释样本,这些样本对于不同的任务来说不一定是最有效的例子。本文提出了一种新的方法,主动提示,以适应不同的任务与任务具体的例子提示(注释与人类设计的CoT推理)LLM。为此,我们提出了一个关键问题的解决方案,即从特定任务查询池中确定哪些问题是最重要和最有助于注释的。借鉴基于不确定性的主动学习的相关问题,我们引入了一些度量来描述不确定性,从而选择最不确定的问题进行标注。实验结果表明了该方法的优越性,在八个复杂推理任务上取得了较好的性能。对不同不确定性指标、池大小、零触发学习和准确度-不确定性关系的进一步分析证明了我们方法的有效性。
简介
大型语言模型(LLM)方面(Raffel等研究者;布朗等;Chowdhery等;张等人;Tay等;Scao等;曾等人;Smith等人)均取得了显著进展。应用LLMs的传统方法是基于上下文学习(Brown等),在常规的语言理解与生成任务中表现出色(Rao等人),但在复杂推理任务中的效果仍有待提升(Rae等人)。近期提示性研究显示,在详细描述了推理步骤后(魏等人),逻辑推理模块的能力得到了显著提升(王等人)。然而这一方法依赖于人类工程学:这要求人们选择若干信息丰富的核心问题,并通过注解这些关键点来完成标注工作(周等人)。
人工标注(带标记的CoT及答案的问题)在不同应用场景中未必是最高效的选择方案

图1:我们所提的方法的图解展示为四个主要环节。(1)不确定性量化:当存在或缺乏某些人的思维链时,我们通过向大型语言模型k次提问(此处k值设定为5),以获取一系列中间问题的答案样本,从而实现对潜在答案集合的构建。(2)筛选标准:基于计算出的不确定性度量值,我们采用阈值策略筛选出最具有代表意义的问题进行标注。(3)人工标注:由人类专家负责对筛选出的关键问题进行详细标注。(4)推理过程:利用获取的新标注数据对各关键问题展开系统性推理分析。
借鉴主动学习领域相关研究(Gentile等人, 2022)的核心理念,在本研究中我们开发了一系列指标来量化模型在每项任务上的预测不确定性。为此,我们设计了一种新型基于不确定性的标注策略以应对来自下游数据集的任务。该策略通过甲骨文注释具有最大预测不确定性的问题,并利用思维链提示生成高质量样本集合E。此外,在测试阶段我们采用了 Wei等人(2022b)提出的标准化预处理方法对所有测试样本进行了统一转换处理。图1展示了该方法的整体架构示意图。
文献中探讨了不同类型的不确定性评估方法(包括Settles在2009年的研究以及Culotta与McCallum在2005年的著作)。在本研究的主要实验部分中,在对所有预测答案的一致性度量基础上引入了一个新的指标u(记作u),用于表征预测结果的不确定程度。此外,在进一步的研究中还探讨了其他几个相关的指标参数(如方差σ²和置信度c)。对于置信度c这一指标参数来说,在具体实现过程中我们采用了新的模板系统来重新整理生成的答案,并询问模型对这种生成结果的信任程度有多大。在这种情况下,在分类系统中将u定义为一个分类变量(类别包括'非常自信'、'较为自信'、'不太自信'以及'错误答案'四种可能性)。根据观察结果发现,在这些指标参数当中只有置信度c这一项表现出明显的效果不足的现象——这可能是由于LLM模型倾向于给出过于确定的回答所导致的结果
在经过精心选择的八个基准数据集上的实验(...),其中涵盖了算术推理模块、常识推理模块以及符号推理模块。通过系统性的实验对比发现:所提出的方法显著优于现有竞态方案(...)。具体而言:
1)我们主张在标注过程中优先选择那些最具代表性和信息量最高的问题。
2)我们开发了一种创新的基于不确定性评估机制。
3)该方法在一系列复杂认知任务中展现了显著的优势。
据现有研究记录显示,在主动式问题筛选策略的应用中取得显著成效。
主动提示
该方法的示意图为图1所示。
假设我们有l个未标注的数据集Dtr包含元素tq₁,tq₂,…,tq_l和m个测试样本 Dte 包含 tp₁,tp₂,…,tp_m。
其中每个样本对(q,p)代表没有预设答案或推理过程的问题情境。
我们的目标是通过生成新的样本集 E=

通过推理步骤c和答案a,并结合E提示测试数据Dte进行处理后,能够得出预测结果。本节将介绍选择n个最不确定的问题并对其进行详细注释。
不确定性的评估需要在一个庞大的数据集内选取若干关键问题,并采用无监督的学习方法。先前的研究(Gentile等人, 2022年)显示,缩减模型的不确定性能够显著提升其性能。由此,我们在LLMs中引入了不确定性度量指标作为数据筛选的标准。在思维链场景中,我们首先通过LLM重复生成k个答案以获取每个问题的不同解答。那么,一个问题所具有的不确定性可以通过多种量化手段加以表征。在本研究中,我们重点考察并详细阐述了四个潜在的不确定性指标。
不一致首先,我们考虑使用k个生成的答案

争议主要集中在预测结果的单一输出上。其实这一过程相当直接。为了统计并去除重复项,我们采用了集合操作的方法,并最终获得了h个独特的结果。

随后,在利用u’h{k进行计算时会发现存在不一致性的问题。同样地,在表征不确定性时也可以采用熵这一指标来进行量化描述。其计算公式如上所示

其中Pθpaj |qiq在一个预测方案中发生一定的频率。系统的高熵值表明较高的不确定性,在信息论领域通常用熵来衡量系统的不确定性程度。因此,在复杂的推理过程中,我们会选择那些具有较高熵值的问题作为候选。进一步地讲,在考虑不确定性的度量时,我们认为方差可能更适合用于评估算术类型的答案。

其中一个

从观察结果看,预测答案存在显著的差异性;其中一些预测结果呈现较小数值(如1),而另一些则呈现出较大数值(如1万)。为了有效解决较大数值主导的问题,请建议将所有涉及的数据进行标准化处理以统一评估;例如,在某个问题中假设每位参与者平均持有2个苹果,则该群体总计持有多少个苹果?对于一个给定的预测值yˇ,在经过归一化处理后将得出相应的标准化评估结果

。
在本研究中,我们进行了初步探索,在分析过程中采用了不一致性度量与熵作为评估指标,并观察其表现情况。随后通过对比实验发现这些指标较之于自信度量表现出更为优异的效果(详情请参阅第5.1节)。基于这一发现,在后续实验设计中我们主要采用了不一致性度量与熵作为评估指标的选择依据,并认为这种方法具有较高的适用性
在获得了每道题的不确定度之后,在获得了每道题的不确定度之后

将替代首字母'E'符号,并在后续讨论中采用新的标注样本'E'来引导相关思考过程
实验设置
在当前章节中, 我们将在以下三个子部分中分别阐述: 数据集与评估指标, 基准模型及其详细说明, 以及实施的具体步骤. 参考附录A获取更多细节.
数据集和评价指标
基于LLMs推理研究领域的标准评估框架(魏等人, 2023 ),我们设计了多组实验数据,并将其应用于以下几类典型场景:GSM8K(Cobbe等人, 2019 )、ASDiv(苗等人, 2017 )、SVAMP(Patel等人, 2018 )、AQuA(凌等人, 2014 )、singleq(Koncel-Kedziorski等人, 2015)以及(Talmor等人, 未提供完整信息)。特别地,在最后一种场景下——即最后一个字母连接——我们在非分布式环境中进行了测试,在这种情况下提示仅包含两个字符而查询则包含四个字符。所有相关统计信息均可从表6中获得。在此研究中采用精确匹配准确率作为主要评估指标
基线
在我们的实验中,我们采用了四种方法作为基准:思维链条(CoT)由魏等(2022b)提出;自洽(SC)由王等(2021)提出;自动CoT由张等(暂无具体年份)提出;随机CoT则是其中一种变体。在注释流程方面,Random-CoT与Active-Prompt具有相似的注释流程。
其独特之处在于它采用了随机从训练数据中选取问题进行标注的方法而非采用我们提出的新颖评估标准
实现超参数
在我们的实现中,模型在推断之前只能访问训练数据D”tXtr,Ytru,并且在测试数据D”tXte,Yteu上进行评估。我们应用与Wei等人(2022b)相同数量的样本,对于GSM8K、ASDiv、SVAMP和SingleEq是8个,是7个,StrategyQA是6个,AQuA和Letter是4个(4)。鉴于一些数据集(即ASDiv、SVAMP和SingleEq)只有测试分裂,我们采用GSM8K的标注结果,并将其转移到这些数据集进行推理。转移详情如表6所示。在推断阶段,我们设定温度T”0.7,每题推断40次。然后我们取最一致的答案。除非特别说明,否则使用的gpt-3.5-turbo的默认版本是gpt-3.5-turbo-0613。
在此阶段进行不确定性评估时
当数据规模小于1, 000时,则采用完整数据集进行处理。为了探究不同规模的数据池对模型性能的影响,在本研究中我们对多种不同规模的数据池进行了系统性实验研究。结果显示,在|P|逐渐增大的情况下(即随着池规模逐渐扩大),模型性能得到了显著提升。在本研究的主要实验中,则将所有测试集的数据集参数设置为K=12。
在第5.1节中探讨了性能与安全系数的相关性分析。结果显示,在池大小逐渐增大的过程中, 性能持续提升, 并最终趋近于k=10。针对不确定性度量指标而言, 在主动提示(D)和主动提示(E)的基础上分别采用不一致性和熵作为评估基准.值得注意的是, 在StrategyQA中观察到的最大不一致性值通常等于2/2=1.因此我们特别关注了活跃提示D出现频率的变化情况.
为实现我们的方法,在选定的问题上需由人工完成标注工作。其中一名合著者参与了这一标注任务,并具备机器学习和思维链提示方面的专业知识。值得注意的是,在本研究中我们更关注于样本的选择过程而非标注工作。此外,在标注过程中并未采用试错机制,并参考了现有标注实践(如Wei等人所述)来尽量减少人为干预。对于每个问题实例,在标注时将重点放在生成完整的推理过程和提供准确的答案上。具体而言,在第5.1节中将详细讨论不同标注者的性能差异以及选择策略与标注质量之间的关系
实验结果
实验结果展示于表1中。总体而言, 我们的模型显著优于所有基准模型。通过Active-Prompt (D), 该研究分别观察到与text-davinci-002相比平均提升了7.0%的自洽性, 同时较code-davinci-002则提升了1.8%。这一发现验证了我们主动选择方法的有效性。在此节中, 将重点讨论算术推理、常识以及符号推理的表现。
算术推理:相比于现有的多种基准模型,主动提示方法展示了显著的优势,其性能表现最优。在调用text-davinci-002的情况下,相较于现有方法提升了2.1%的准确度,而ActivePrompt (D)的表现则超越了自我一致性的7.2%提升幅度。值得注意的是,在基于code-davinci-002的数据集上,我们观察到最大的改进效果:GSM8K数据集上的提升幅度为4.2%,而AQuA数据集上的提升则为3.1%。这可能与这些数据集本身的特点有关,即它们无需依赖CoT提示便能实现良好的迁移性效果,因为我们能够在训练集中直接选择并标注问题以获得最佳结果。

表1:主动提示的整体效能
然而ASDiv、SVAMP以及SingleEq均未提供训练数据。因此我们需要将annotated CoT from GSM8K转移到这些模型上。这一发现提示了一个值得深入研究的方向。在常识推理及符号推理任务上均显示出显著提升。值得注意的是,在所有三个核心领域中ActivePrompt均超越了self-consistency. 在字母(4)上的非分布设置下进行测试显现出更高的性能水平,并且相对于所有基线模型而言 Active-Prompt仍能实现最佳性能.
分析
在本节中, 我们进一步执行了几项额外实验, 以探究fewshot提示、主动选择、不同注释器、不确定性度量、池大小以及提示工程的作用。最终, 在深入探讨不确定性和准确性关系的基础上, 进行系统性分析, 旨在更全面地阐述该方法的工作原理。

表2展示了对三个算术推理任务的研究消融情况。在不确定性估计期间,在零发射阶段实现了对少发射CoTs依赖性的消除。彦俊先生与另一位注释者(B)的身份不同。(D)、(E)以及(V),分别代表不一致性、熵以及方差。粗体标识了各数据集中的最优表现。通过调用代码-davinci-002进行计算得到.GSM8K、ASDiv、SingEq的结果;同样地, CSQA及字母版本(4)的数据通过调用文本-davinci-002生成
消融研究
在本节中, 我们深入解析了所提出的模型架构中各组件的作用. 首先, 在零视界环境中评估不含依赖关系的数据样本的表现, 以此作为基础进行初始性能评估. 然后考察所提出的主动采样策略所带来的贡献. 此外进一步分析了基于不同标注器、不确定性量化指标以及候选池规模的变化. 为了检验其重要性, 我们依次消融各个关键组件并考察其对系统性能的影响. 最终研究结果已在表2中展示
在我们的主要实验中采用4至8个人工标注的样本作为基础 通过辅助完成不确定性的估计过程 并验证了该方法的有效性 这些标注好的数据集来源于魏等人(2022b)的研究 然而 该研究方案并不依赖于提供的具体数据集
在本节中,在无法直接获取的情况下进行后续实验。我们参考了Zero-ShotCoT(小岛康誉等人2022年的最新研究)的核心思路,在输出中自然融入了‘让我们一步一步地思考’这一指令。通过这种简洁的方式使LLMs不仅完成详细的推导过程及最终结论的生成。实证结果表明,在表2所展示的零触发主动提示场景下,其性能表现与基于主动提示的方法相当程度上不相上下,并非完全依赖于少量触发样本的支持就可以取得显著效果
我们的主要贡献是开发了一种高效的样本筛选机制(即主动筛选策略)以实现数据标注效果的提升。我们通过引入随机抽样替代传统的主动筛选策略从而减少了计算开销同时保持了注释流程的一致性该模型命名为'随机床'实验结果显示采用该方法能够显著提高标注效率并获得了更好的分类性能
与另一个基准模型相比,在一致性方面表现不突出,并且这表明我们所采用的标注过程缺乏优势,并且可能是主动策略带来的性能提升。具体而言,在GSM8K数据集上,Random-CoT(78.6)略高于SC(78.0),但落后于Active-Prompt(82.2%,差距约3.6个百分点)。所有数据集上随机对照组的具体结果均在表1中详细列出,并且相较于Active-Prompt的表现持续下降。值得注意的是,在本研究的主要实验设置中,默认情况下默认情况下默认情况下默认情况下默认情况下默认情况下默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况注释器的作用在本研究的主要实验设置中。
为了保证研究的有效性我们要求注释器不要使用最少的人工干预来进行试错操作这是因为我们的研究重点在于问题选择而非最佳可能的标注质量。
然而尽管如此不同的注释策略仍然会对最终的结果产生影响
在本节中, 我们将深入分析多种注释器的表现. 除了我们采用的注释器A, 我们还将借鉴GSM8K数据集提供的人工标注基础(即注释器B). 表2详细列出了相关结果. 无论是标注器A还是B, 它们的性能均显著优于基线模型, 这充分证明了我们所提出的选择方法具有很强的鲁棒性. 最为人称道的是, 我们发现直接应用GSM8K所提供的解决方案反而是优于我们采用人工标注的基本框架, 这一发现令人鼓舞地表明GSM8K现有的标注质量. 此外, 人类提示工程包含两个相互补充的关键方面:问题选择与提示模板设计. 本文所提出的方法成功解决了第一个核心问题. 此外, 将这种技术与经过人工优化的提示模板相结合还有助于进一步提升性能.
我们在主要实验中关注不确定性度量的影响。为此,我们选择采用不一致与熵作为衡量不确定性的主要指标。此外,在本节中我们将探讨四个关键的不确定性度量:不一致、熵、方差与自信。这些指标的定义已在第2.1节详细阐述;其中自信的具体解释可参考附录D的内容。首先,在搜索空间有限的数据集中发现不一致难以得到有效应用。例如,在StrategyQA系统中仅有两个标签(是或否),预测值通常与最大分歧值相关(2/2=1)。因此,在这种情况下我们选择了熵来进行策略评估QA任务。其次,在基于自信的方法效果欠佳的情况下我们未进行进一步测试;表8中的预测实例表明这一现象(我们推测)可能源于GPT-3模型过于倾向于给出高置信度的答案(Si et al, 2022)。
采用经过专业训练的鉴別器对置信度进行评估是一种实用的技术方案;我们将这一技术方案置于后续研究工作中;最后部分展示的是基于不一致性、熵以及方差等指标的对比分析结果;实验结果显示,在ASDiv和SingleEq基准测试中均表现出良好的性能;值得注意的是,在GSM8K基准测试中发现不一致性与熵的表现优于方差指标;综合考虑各指标的表现情况后,在本研究的核心实验中选择了不一致性与熵作为主要评价标准
在不确定性估计的第一阶段中涉及预测池大小的影响因素分析。为此我们需要为每个输入问题生成多个候选答案从而构建一个预测集合这些候选答案的数量由参数k决定。研究发现这一参数的选择不仅会影响估计不确定性的水平还会影响到后续下游任务的表现。为了直观展示不同候选数量对评估结果的影响我们在图2中绘制了基于text-davinci-003模型的不同候选数量(包括1个5个10个和15个)对应的准确率曲线。实验结果显示当预测集合规模逐渐增大时模型性能持续提升直至达到最大容量状态即当k=10时性能趋于稳定并维持不变状态。从直觉上而言较小的k值可能会导致选择过程出现混乱从而产生平局现象而当采用较大的k值时不仅能够提升模型性能还能实现更为精确且可靠的不确定性评估。

图2:不同数量的预测答案之间的比较。

表3: 活动样本的可移植性分析
不确定性分析
我们的方法出发点是为了减少模型预测过程中的不确定性,并引导LLMs具备更强的推理能力,在此基础之上进一步提升基于少量提示的信息提取效果。在本节内,我们将深入探讨不一致性和准确性之间的关系。参考附录A中的图3所示,在该图表中我们展示了GSM8K、ASDiv和SingleEq这三个数据集各自所对应的不确定性指标及其精度评估结果。通过分析这些数据的表现形式与准确度的关系模式后发现,在这些指标之间存在着显著的高度负相关性:当不一致性减少时(即不确定性下降),其对应的准确度也会随之提升(即预测效果增强),这表明减少模型预测过程中的不确定性确实能够有效提升基于少量提示的信息提取效率。

可转移性
探讨所选样本中的不确定性在不同模型中的一致性问题及其可能与特定任务本身的关联时
另一种说法是,在转移其他系统/模型时, 基于一个模型识别的活动样本将具备可用性和可靠性。基于表3的数据结果显示, 研究发现所有三种基于选择的方法均表现出良好表现。被选定的不确定性案例与任务来源相关, 可以转移到不同的系统/模型中。这一发现表明, 不确定性来源于任务属性, 主动提示生成的有效样例具有良好的迁移特性。该实验的结果提供了对模型预测中不确定性本质及其潜在来源的具体分析, 达到了91.8%的效果评估标准。
较弱模型的性能
主要实验主要基于先进的GPT系列模型展开。有人可能质疑较小或较弱规模模型的表现能力,请参考Touvron等人(2023a,b)的相关研究。本节重点探讨了主动提示在Llama-2模型中的有效性。通过观察发现,我们提出的方法显著优于CoT方法,这表明该策略仍是一种有效的弱模拟能够发挥其潜力。特别注意,在所有实验中均采用了指令调整后的版本Llama2-70b(即Llama2-70b-chat),该版本能够理解和处理复杂的思维链提示,并严格遵循人类指令
和美洲驼模型之间的可移植性
在此基础上,我们进一步探讨了GPT与美洲驼模型之间的移植兼容性。由于较小规模的美洲驼模型在推理能力上表现欠佳,在此基础上,我们选择了美洲驼2-70b-chat进行实验验证。针对不同场景的测试任务
采用GPT-3.5-turbo与Llama2-70b-chat组合的方式对问题进行推断,并且将LLama 2-70B-chat与GPT-3.5-turbo两种不同版本结合以实现特定功能。请注意,在本研究中我们采用了GPT-3.5-turbo的0613版本(见表5)。图中所展示的关系网络中,“箭头前端标注的是主动选题的模型”、“箭头末端标识的是推理使用的模型”。研究表明,“通过同一个模型先选择问题再将选择的问题再应用到另一个不同的计算资源上具有可行性”。“进一步地,在较大规模的问题上运行时,在较小计算资源下运行效果更为显著。”
相关工作
通过引入思维链提示策略,可以显著提升大型语言模型的推理能力.魏等人(2022b)最初提出的方法是利用推理步骤来扩展较少样本的例子库.随后的研究者在自我一致性、最少到最多提示等方面进行了深入探索.动态最少到最多提示、自举学习、自训练等方法也被进一步发展和完善.为了提高模型性能,验证器方法也受到了广泛关注.针对提示增强与选择策略的研究也取得了进展.相比之下,Auto-CoT (Zhang et al, 2022b)通过将测试问题按多样性进行聚类,并采用零镜头提示策略来直接生成答案.值得注意的是,Auto-CoT的方法虽然有效,但其计算开销较大;而我们的实验表明,所提出的注释化特定任务问题的方法在计算资源消耗上更具优势.此外,多样性和不确定性在选择信息最丰富的问题方面具有互补作用.
我们的研究工作与主动学习领域有着密切的关联(Cohn等人于1996年;奥尔森于2009年;定居于2009年;罗特曼与雷查特于2022年;林等人于2023年),其目标是通过筛选最具价值的未标注数据,在有限的标注预算内实现高效的标注过程以提升数据质量。近期研究(包括施罗德等人及ksal等人在同一年发表的结果)表明,在分类任务中基于主动学习的方法显著提升了对大型语言模型的微调效果。接下来,在上下文学习框架中我们将最大熵算法(Roy与McCallum于2001提出)与最小置信度算法(Culotta与McCallum于2005提出)进行整合,并验证了思维链提示的有效性特别是在处理复杂推理任务方面展现出的优势
结论
在本文中
局限性
已有研究表明,采用主动引导提示的方法较以往的传统思维链提示方法在性能上取得了显著提升,尽管令人鼓舞但目前的工作仍存在一些局限性未来还有改进的空间。进一步的实验研究将围绕更多模型展开。在我们的实验中,我们提供了DAVinci系列模型(版本号: text-davinci-002)以及Code Davinci系列模型(版本号: code-davinci-002)的具体结果,其中Code Davinci系列模型在最初的有限测试期内是免费提供给研究者的。然而,DAVinci系列中的后续版本(如text-davinci-003)由于高昂的成本限制了我们在现有研究中的应用范围。值得注意的是,一个有潜力的方向是探索更强大的模型,如The GPT-4 model ( developed by OpenAI in 2023 ).然而,鉴于其开发者的计算资源投入巨大,使用其API进行实验仍然面临高昂的成本压力。此外,由于预算限制因素,我们尚未开展与gpt-3.5-turbo进行自洽验证的实验工作。一旦预算得到改善,gpt-4将是我们探索的主要方向之一;与此同时我们也将继续使用gpt-3.5-turbo进行自我一致性验证以确保研究结果的一致性。
在我们的实验中采用davinci-002代码执行大部分测试工作因为它最初限定时间内是免费可用的。编号为davinci-002的测试项目预计将在2023年3月之前完成。然而OpenAI官方宣布已停止对该代码的访问这使得研究人员难以复现实验结果。然而可利用OpenAI的研究人员程序3可获取该代码尽管作者自身仍无法获取。
附录
在本节中我们将详细介绍以下三个子部分:具体的数据集合与性能评估标准 基准模型架构以及技术实现方案等细节
A.1数据集和评价指标
基于LLMs推理研究中的标准评估框架(魏等, ),我们在三个特定数据集上开展实验:其中涉及算术推理方面的研究包括GSM8K项目(Cobbe团队, ),以及ASDiv是由苗等人于 年开发的;此外还有SVAMP项目由Patel团队于 年推出;还有AQuA及SingleEq项目的相关研究也均有涉及。至于常识推理领域,则主要聚焦于CSQA这项由塔尔莫尔团队在该领域的研究以及StrategyQA项目的深入探讨
符号推导:末尾字符的连接(Wei等人, 2022b)。
这些研究涉及的数据统计信息可在表6中找到。值得注意的是,在我们的实验设置中,在完成一次完整的前馈传播后才更新权重参数这一做法的主要目的是降低计算开销。然而这一做法可能对模型不确定性估计的效果产生一定影响。从直觉上看增加更多的训练样本有助于更好地反映数据分布特征从而提升对不确定性的量化能力如果获得额外的研究资金支持预期在资源投入的基础上进一步优化模型性能为了确保结果的一致性和可比性我们将采用与魏等人(2022b)相同的测试集并且报告精确的匹配准确度作为评估度量
A.2基线
在我们的实验研究中
基于自动产床(张等团队在2022年提出)的方法是一种自动化地结合聚类技术和零样本提示来生成推理结果的技术(小岛康誉等人在同一年提出了类似的方法)。其中Random-CoT被视为主动提示策略的一个基准版本。其注释流程与ActivePrompt完全一致。唯一区别在于其采用了随机抽样的方式从训练数据中选取问题进行标注,并非基于我们提出的不确定性度量评估机制。
我们的实验主要依托CodeX code-davinci-001 (陈等, 代码Davinci-1于 代码 Davinci-1年份 ) 的基础架构, 其主要原因有两个: 首先, 在实际运行过程中, 这一模型展现出卓越的性能特征, 并与以往研究中的观察结果一致(魏等人, 代码 Davinci-1; 王等人, 代码 Davinci-1; 苗等人, 代码 Davinci-1) 。其次, 在最初的有限测试期是免费的。此外,在测试过程中, 我们还对text-davinci-3和text-davinci-4进行了性能测试(具体细节见下文),以验证我们的方法在主要实验中的有效性。为了实现这一目标, 我们通过直接调用OpenAI的服务4 API完成了数据获取。
A.3实现超参数
在我们的实现中
在当前阶段进行不确定性评估时
对于不确定性指标而言,在不确定性的评估中我们重点报道了两个指标:一个是基于不一致性的度量(即主动-提示D),另一个是基于熵值法的度量(即主动-提示E)。已有研究表明,在StrategyQA框架下这一度量值通常会达到最大值2/2=1的状态;因此在分析过程中我们还特别关注了活跃出现率较高的主动-提示D这一现象的发生频率。
我们的方法涉及对特定问题集合进行人工注释工作。担任合著者之一的注释者具备机器学习和思维链提示领域的专业知识。由于本方法侧重于样本选择而非直接的标注过程,在标注相关的工作中参考了以往标注实践(魏等, 2022b),并未采用试错法,并尽量减少了人机交互干预环节。对于每个具体问题,在标注过程中主要关注于推理步骤的详细阐述及答案的确切性陈述。不同标注者的标注效果分析以及标注策略选择等多维度因素将在5.1节中展开探讨。
通过图表3展示了精确度与不确定性的关系研究

d. 基于自信地进行不确定性估算时, 估计不确定性也可以自行通过LLMs实现, 即即可认为具有自信
它可以通过基于手工设计的模板T查询模型来获得;例如,在问题q和预测答案a的情况下,评估选定的回答选项的置信度。(a)非常自信(b)自信(c)不自信(d)错误答案
然后,我们通过以下方式选择最不自信的问题:

特别地,在本研究中所使用的概率分布模型Pθpaj |qiq属于由{高置信度、置信度、无置信度、错误选项}四个类别构成的集合。
通过评估模型输出中的逻辑不确定性,我们可以为基于逻辑的知识表示框架提供可靠的支持。为了验证主动提示的有效性是否依然成立,我们设计了系列实验。接下来,我们采用gpt-3.5-turbo-0301 API返回的具体数值(即logits)作为输入数据。具体结果可见表9。从表中可以看出,在所有测试案例中,ActivePrompt方法均优于传统的思维链(CoT),且略胜于基于不一致性的方法。
此外,在实验过程中, 我们还采用了美洲驼-2-70b模型的数据进行对比测试。然而, 在这种情况下, 美洲驼模型往往表现出显著的自我信心特征, 这使得当将其用于不确定性度量时效果不佳。值得注意的是, 这一现象在现有文献中已有相关探讨(郭等, 2017; 孔等, 2020; 陈等, 2022), 我们的实证结果与已有研究保持一致。基于此, 我们的下一步研究方向将侧重于开发更为有效的校准技术

问题汽车每行驶2英里,轮胎旋转725次。杰里米每月开车400英里。如果每个轮胎可以旋转10,440,000圈,那么需要多少年才能更换轮胎?
预测答案每个轮胎可以承受10,440,000转。在400英里中,汽车行驶400 / 2 = 200英里。
在200英里中,每个轮胎旋转200 x 725 = 145,000次。145,000 / 10,440,000 = 0.0139.
答案是0.0139年。
信心报告对选择答案的信心。
(a)非常有信心(b)有信心(c)不有信心(d)答案错误
答案是每个轮胎一个月的转数除以它能做的最大转数,即145000/10440000 = 0.0139。
逻辑正确,没有计算错误。所以,选(a)。我很有信心。
表8:一个基于自信的提示过程和结果的例子。


表10与自动CoT对比。Auto-CoT的结果基于原始论文数据。在保证公平性方面采取措施以避免使用自洽方法以防止偏差。主动提示采用了基于人类注释的基础原则通过加粗突出显示每个数据集中的最优表现所有结果均由AI系统Davinci-002生成
Auto-CoT (Zhang et al, 2022b)開發了一種基於多樣性的問題選擇方泫, 而我們則開发出了一種基於不確定性問 Titl的选择方泫
在本节中,我们将提出的方法与现有的AutoCoT系统进行对比分析,以全面展示两者的性能差异及其特点。值得注意的是AutoCoT仅基于代码davinci-002提供了相关结果,并未涉及自洽性验证这一重要指标。因此,在相同实验条件下,我们选择GSM8K、MultiArith和AddSub三个典型数据集对我们的方法与其进行了系统性对比实验。具体研究结果详见表10。通过观察实验数据可以看出主动提示策略显著优于传统AutoCoT方法。这种性能提升主要得益于两种关键因素:基于不确定性度量的提示选择策略以及人工高质量注释的支持作用。值得注意的是多样性指标与不确定性度量具有良好的正相关性,并且两者均为提升选择信息丰富度的关键因素。由此我们得出结论:将多样性与不确定性相结合将成为未来研究中的重要探索方向
对比现有复杂性导向的方法(Complex-CoT, Fu et al, 2022),我们的研究提供了一个新的基准框架。该框架综合考量提示的属性,并倾向于选取具有较高复杂度的示例作为训练数据。通过实验结果表明,在分类性能上ActivePrompt显著优于传统复杂性基线方法。进一步研究表明,在处理多模态数据时,结合不确定性评估机制能够显著提升模型性能表现。这一发现留作后续研究探讨。
相较于人工选择问题而言,在本方案中提出的方法表现更为出色。就新任务而言,在传统方法中,用户往往需要进行反复尝试和不断修正工作流程。这一过程不仅耗费大量人力资源而且还伴随着性能的不稳定。即便如此,在最终筛选结果中仍然存在一定的次优性。
进一步地,请参见附录A.3所述内容,在该方案下我们限定候选实例的数量不超过1,000个。这一设定不仅简化了操作流程还能显著降低资源消耗。
在本方案中设置上限为1,000既平衡了系统成本又兼顾了性能水平。
经过超过1, 但不确定性的评估仅需重复该过程1次即可完成。
相比于自洽方案而言,
尽管采用了正交技术,
能够与现有的解决方案互补。
此外,
发现了显著的结果表明,
较小模型(如Llama)选择的问题能够在更大规模模型(如GPT-3.5-Turbo)中表现良好。
值得注意的是,
这些小型模型的优势在于它们是开源的,
因此无需承担额外的技术开销,
并且能够与现有架构配合使用。

对于注释而言, 采用人工标注方式会耗费大量资源. 我们将zero-shot-CoT 视为替代方案, 并将其与主动提示相结合以探索低成本的标注方法.
我们对长CoT注释的消融研究展开深入探究,并旨在区分长CoT注释对方法性能的影响。为了探究这一问题,在实验设计中我们将原始CoT (Wei等人, 2022b)注释的长度进行了扩展(从平均约155个单词提升至与我们的平均长度相当)。结果显示,在模型性能方面仅增加注释长度并不能带来显著提升,在某些特定场景下甚至可能导致性能下降。相比之下,在采用ActivePrompt方法时始终能获得卓越的效果表现(表13至表18中展示了完整的样本集)。这种方法的关键优势在于精准识别和有效利用了标注信息中的细微差别。
问:作为一名自由职业者,贝勒在自由职业市场上为客户完成的每一项工作都会获得报酬。目前,他的仪表板上有4000美元来自以前完成的工作。他目前为三个客户工作,一旦工作完成,第一个客户会付给他目前仪表盘上一半的钱。一旦贝勒完成他的工作,第二个客户将付给他比第一个客户多2/5倍的钱。一旦他完成工作,第三个客户将付给他两倍于第一个和第二个客户一起付给他的钱。在所有客户都为他的工作付钱之后,贝勒的仪表盘上会有多少钱?a:让我们一步一步来考虑。为了计算在所有客户为这项工作向Baylor付款后,他的排行榜上会有多少钱,我们需要知道每个客户的付款金额,并将它们与排行榜上的原始价值相加。第一个客户会付给贝勒1/2 * 4000美元= 2000美元。第二个客户会比第一个客户多付给贝勒2/5倍的钱,总共2/5 * 2000美元= 800美元。一旦工作完成,第二个客户将付给贝勒的总金额是2000美元+800美元= 2800美元。第一个和第二个客户在他们的工作完成后将支付给贝勒的总金额是2800美元+2000美元= 4800美元。第三个客户将付给他第一个和第二个客户加在一起的两倍的钱,总共2*$4800 = $9600。一旦Baylor完成他们的工作,这三个客户将总共付给他9600美元+4800美元= 14400美元。在他的仪表板上,贝勒将有14400美元+4000美元= 18400美元。答案是18400。
问:乔希和安娜都出生于8月17日,但出生年份不同。为了巩固庆祝活动,他们还在8月17日乔希22岁时结婚。如果今天他们庆祝结婚30周年,他们的年龄总和正好是他们结婚时乔希年龄的5倍,安娜结婚时多大?a:让我们一步一步来考虑。为了计算安娜结婚时的年龄,我们必须知道他们的综合年龄,乔希30年后的年龄,以及安娜结婚30年后的年龄。由于他们的年龄总和是乔希结婚时年龄的5倍,所以他们的年龄总和是5 * 22 = 110岁。乔希肯定比他们结婚时的年龄大30岁,所以他现在22 + 30 = 52岁。所以安娜现在的年龄会是110 - 52 = 58岁。如果他们30年前结婚,安娜结婚时一定是58 - 30 = 28岁,答案是28岁。
问:Mary正在尝试第一次设置Zoom。她花了10分钟下载了Mac版,结果发现她需要Windows版,而Windows版的下载时间是Mac版的三倍。在她的第一次通话中,音频故障两次,每次持续4分钟,视频故障一次,持续6分钟。她在没有小故障的情况下通话时间是有小故障时的两倍。Mary总共花了多少时间下载Zoom和交谈?a:让我们一步一步来考虑。为了计算Mary下载Zoom和通话总共花了多少时间,我们需要知道Mac版本的下载时间,Windows版本的下载时间,音频故障和视频故障的总时间,以及总的无故障时间。Windows版的下载时间是Mac版的3倍,即3 * 10 = 30分钟。音频故障和视频故障的总时间为4分钟/故障* 2音频故障+ 6分钟音频故障= 14分钟。无毛刺时间是有毛刺时间的两倍,即2 * 14 = 28分钟。玛丽下载Zoom和通话的总时间是全部加在一起,10分钟+ 30分钟+ 14分钟+ 28分钟= 82分钟。答案是82。
问:瓦莱丽需要在她要寄出的信封上贴邮票。她给祖母、叔叔和婶婶每人都寄了感谢卡,感谢他们送的生日礼物。她还得分别支付水费和电费。她希望邮寄的折扣比账单多三倍,她的工作申请是邮寄折扣的两倍。
如果所有东西都需要1张邮票,除了电费需要2张,她需要多少张邮票?a:让我们一步一步来考虑。为了计算Valerie需要在她将要邮寄的信封上贴多少张邮票,我们需要知道生日礼物感谢卡的数量、账单的数量、邮寄返利的数量、工作申请的数量以及要发送的邮件总数。由于要感谢三个人,所以感谢卡的数量是3张。有两张账单,一张是水费,一张是电费。邮件数比账单数多3,即3 + 2 = 5。工作申请的数量是main-in返利的两倍,也就是2 * 5 = 10个申请。要发送的邮件总数是3 + 2 + 5 + 10 = 20封要发送的邮件。每封邮件需要1张邮票,但电费需要2张邮票。所以她
表13列出了从GSM8K中选择并标注的完整思维链提示示例。其中包含来自GSM8K、ASDiv、SVAMP以及SingleEq的数据集。
问:约翰决定停止投递他应该投递的报纸,而是偷报纸回收现金。周一至周六的报纸每份重8盎司。星期日的报纸重两倍。他应该一天送250份报纸。他十周内不会送货。如果一吨纸回收20美元,他赚了多少?a:让我们一步一步来考虑。如果一吨纸回收20美元,为了计算约翰赚了多少钱,我们需要知道每周运送的纸的重量(磅)、10周内运送的纸的总重量以及纸的总重量(吨)。一张纸的周投递量由6天8盎司纸和一天2*8 = 16盎司纸组成,所以纸的周重量是6 * 8 + 16 = 64盎司,也就是64/16=4磅。由于约翰每天需要投递250篇论文,所以一周内投递的论文总重量为4 * 250 = 1000磅。10周的论文总重量是10 * 1000 = 10000磅。以吨为单位的纸张重量是10000/2000 = 5吨。所以他通过回收纸张赚了5 * 20 = 100美元。答案是100。
问:约翰买了一把椅子。然后他买了一张3倍于椅子价格的桌子。然后,他买了一个沙发,价格是桌子的5倍。如果约翰为所有这些物品支付了380美元,那么沙发的价格是多少?a:让我们一步一步来考虑。为了计算沙发的价格,我们需要知道椅子的价格,桌子的价格,以及椅子、桌子、沙发和支付的总金额之间的关系。设x是椅子的价格,3*x是桌子的价格,5*(3*x) = 15*x是沙发的价格。椅子、桌子、沙发和支付的总价的关系是x+3 * x+15 * x = 380美元,也就是19*x = 380,x=20。沙发的价格是15*x,也就是15 * 20 = 300美元。答案是300。
问:去年,一名干草农民每月从5英亩的草地上收获560包干草。今年,他又种了7英亩草。如果农民也拥有9匹马,每匹马每天消耗3包干草,如果他从9月1日开始喂马今年的干草,那么到12月底,农民还剩下多少包干草?a:让我们一步一步来考虑。如果农民从9月1日开始喂马今年的干草,为了计算到12月底他会剩下多少捆干草,我们需要知道每英亩草地可以收获的干草捆数,农民今年拥有的草地的英亩数,每月可以收获的干草捆总数, 农民今年拥有的草的英亩数,今年可以收获的干草捆总数,从9月到12月喂马的天数,他家每天吃掉的干草捆数,以及他家将要吃掉的干草捆总数。 每英亩草地每月可收获的干草捆数为560/5 = 112捆干草。这个农民今年拥有的草地面积是7 + 5 = 12英亩。这12英亩草地每月可收获的干草捆数为12 * 112 = 1344捆干草。他今年能收获的干草捆总数是1344 * 12 = 16128。9月到12月喂马的天数一共是30 + 31 + 30 + 31 = 122天。他的马每天吃的干草捆数是3 * 9 = 27。他的马在122天内消耗的干草包总数是27 * 122 = 3294。剩余的捆总数为16128-3294 = 12834。答案是12834。
表14(续)展示了从GSM8K中挑选并标注出完整的思维链提示样例这一组样本集合。这些样本源自于四个数据集:GSM8K、ASDiv、SVAMP以及SingleEq
问:作为一名自行车销售人员,诺曼的固定工资为每周20美元,加上他卖出的前六辆自行车的6美元,之后卖出的六辆自行车的12美元,以及前12辆之后卖出的每辆自行车的18美元。这一周,诺曼的收入是上周的两倍多。如果他上周卖了A辆自行车,本周卖了Y辆自行车,下列哪种说法一定是正确的?I. y > 2x II。y > x三。y > 3答案选择:(A) I only (B) II only (C) I和II (D) II和III (E) I、II和III A:让我们一步步思考。这有点像做你的税,让我们总结自行车销售和工资方面的数据。
0辆自行车-20美元。6辆自行车-56美元。12辆自行车-128美元。超过12辆自行车- 128 + 18*(a-12),其中x是售出的自行车总数(当a>12时)。A =上周售出的自行车。AS =上周工资。Y =本周单车鞋底。YS =本周工资。
鉴于YS>2AS。让我们测试所有A=0的语句;。AS = 20。YS >40。当Y = 4时为真。满足所有的陈述,但是我们只能确定iii,因为Y只会从这里增加。所以iii一定是真的。排除A,B,c,让我们测试所有A=1的语句;。AS = 26。YS>52。当Y=6时为真。仍然满足所有的声明-没有实现。让我们测试A=6的所有语句。AS = 56。YS>112。当Y = 11时为真。这证明了陈述I是错误的,因此排除E,剩下d。
答案是d。
问:如果k是一个非负整数,15k是823,435的除数那么5ˇk-kˇ5 =答案选项:(A)0(B)1(C)35(D)ˇ120(E)245 A:我们来一步步思考。8+2+3+4+3+5 = 25,所以这个数不能被3整除,因而也不能被15整除。
因此,k=0。5kˇ-K5ˇ= 1-0 = 1。答案是b。
问:在过去的三周里,中野律纪平均每周去健身房两次。再过一周,中野律纪去健身房的平均次数增加到每周3次。最近一周,中野律纪去了几次健身房?答案选择:(A) 7 (B) 3 (C) 6 (D) 2 (E) 4 A:让我们一步步思考。三周内每周总次数= 3*2 = 6。4周内每周总次数= 4*3 = 12。
最近一周的访问次数= 12-6 = 6次访问。答案是c。
问:一个时钟设置在早上8点,它在24小时内快了10分钟。当时钟指向第二天下午1点时,准确时间是多少?答案选择:(A)12点过48分(B)32点过48分(C)19点过48分(D)11点过48分(E)16点过48分答:让我们一步步思考。从当天上午8点到第二天下午1点的时间= 29小时。这个时钟的24小时10分钟=正确时钟的24小时。这个时钟的小时=正确时钟的24小时。这个时钟的29小时=正确时钟的小时=正确时钟的28小时48分钟。因此,正确的时间是上午8点28分48秒,也就是12点48分。答案是a。
表15:从AQuA中选择并注释的完整思维链提示示例。
问:在哪里可以找到不怕被猎杀的树懒?答案选择:(A)森林树冠层(B)自然保护区(C)动物园(D)热带雨林(E)商业A:让我们一步步思考。要回答在哪里可以找到不怕被猎杀的树懒这个问题,我们需要知道树懒生活在哪里,树懒什么时候不怕被猎杀。树懒生活在栖息地受到良好保护的地方。树懒在它们生活的地方狩猎是非法的,它们不怕被猎杀。在上述选择中,(B)自然保护区最有意义,因为它很好地保护了树懒的栖息地,并禁止捕猎。
答案是b。
问:人们声称上帝给了人们什么礼物?答案选择:(A)圣经(B)无处不在(C)审判人(D)关心人(E)创造奇迹A:让我们一步步思考。要回答人们声称上帝给了人们什么礼物的问题,我们需要知道什么是上帝的礼物,没有上帝的礼物人们不能做什么。来自上帝的礼物是人们通常无法获得的能力。人们通常不能创造奇迹,除非是上帝赐予的。在上述选择中,(E)创造奇迹最有意义,因为奇迹是指除非上帝赐予,否则人们无法实现的事情。答案是e。
问:什么东西可能不是用木棒做成的?答案选择:(A)扫帚(B)扫帚柜(C)旧钟(D)五金店(E)老房子A:让我们一步步来思考。要回答什么可能不是用木棒造出来的这个问题,我们需要知道什么是木棒,木棒能做什么。木棒是由各种大小的木头制成的棍子。木棒可以用作工具或家具的一部分。以上选择中,(E)老房子最有道理,因为木杆太弱,支撑不住老房子。答案是e。
问:你在哪里使用避孕套?答案选择:(A)超市(B)迪克(C)卧室(D)医药箱(E)床A:让我们一步步思考。要回答你在哪里使用避孕套的问题,我们需要知道人们什么时候需要避孕套,当他们使用避孕套时,他们呆在哪里。人们做爱时使用避孕套。人们在卧室做爱并使用避孕套。在上述选择中,(C)卧室最有意义,因为人们在卧室里用避孕套做爱是最礼貌和合适的。答案是c。
问:圣诞节后会发生什么?答案选择:(A)给别人买礼物(B)夏天(C)复活节(D)见工(E)万圣节A:让我们一步步思考。要回答圣诞节后不久会发生什么的问题,我们需要知道圣诞节后不久意味着什么,圣诞节后不久会发生什么。圣诞节后不久是指圣诞节后的几天。通常另一个节日发生在圣诞节后不久。在以上选择中,(C)复活节最有意义,因为复活节是一个离圣诞节最近的节日。答案是c。
问:除了研究材料,查找信息还需要什么?答案选择:(A)互联网(B)提问(C)时间(D)寻找(E)逻辑A:让我们一步步思考。要回答查找信息除了研究材料还需要什么的问题,我们需要知道人们在查找信息时做什么,什么是研究材料。人们花时间有目的地查找一些东西叫做查找信息。研究材料通常是指他们正在寻找的东西和必要的工具,如互联网。在上面的选择中,(C)时间是最有意义的,因为人们肯定需要花时间去寻找信息。答案是c。
问:在有人可以收养之前,父母必须对他们的后代做些什么?答案选择:(A)亲生子女(B)送人(C)出生(D)遗弃(E)孤儿A:让我们一步步思考。要回答在某人可以收养孩子之前父母必须对他们的孩子做什么的问题,我们需要知道收养的要求是什么,对他们的孩子做什么是合法的行为。
通常情况下,当人们没有后代或放弃生育后代时,他们可以收养孩子。决定不要孩子是合法的,这是放弃他们的后代。在以上选择中,(B)放弃是最有意义的,因为人们必须放弃他们的后代才能被收养。答案是b。
表16:从CommonsenseQA中选择并注释的完整思维链提示示例。
问:走向超大型望远镜有可能被杀死吗?a:让我们一步一步来考虑。非常大的望远镜在阿塔卡马沙漠。阿塔卡马沙漠是世界上最干燥的炎热沙漠。因此,在阿塔卡马沙漠中行走是有可能被杀死的。答案是肯定的。
问:克拉克·盖博娶的女人比理查德·伯顿多吗?a:让我们一步一步来考虑。理查德·伯顿娶了四个不同的女人。克拉克·盖博和五个不同的女人结过婚,每个女人一次。因此,克拉克·盖博娶的女人比理查德·伯顿多。答案是肯定的。
问:一个人的心脏可以通过丰田Hiux从纽约市持续到北卡罗来纳州的罗利吗?a:让我们一步一步来考虑。人类的心脏在体外可以存活6个小时。从纽约到北卡罗来纳州罗利的距离是505英里。丰田Hilux的最高时速是105英里。从纽约到北卡罗来纳州罗利所需的时间是505英里/ 105英里每小时= 4.8小时。因此,从纽约到北卡罗来纳州罗利的旅行时间不到6小时。答案是肯定的。
问:H最常见的两个字母配对伙伴是幸运轮有奖游戏中的赠品吗?a:让我们一步一步来考虑。h与字母T一起构成英语中最常见的两个字母对。幸运轮有奖游戏给玩家六个自由字母:R、S、T、L、N、e。因此,字母T包含在幸运轮有奖游戏中给定的六个自由字母中。答案是肯定的。
问:东京有人可以打车去大都会艺术博物馆吗?a:让我们一步一步来考虑。东京位于日本。大都会艺术博物馆在美国。日本和美国被太平洋分开。出租车不能飞越太平洋。因此,在东京有人不能乘出租车去大都会艺术博物馆。答案是否定的。
问:奥林匹亚·华盛顿和赫菲斯托斯的工作室同名吗?a:让我们一步一步来考虑。奥林匹亚华盛顿以奥林匹斯山命名,奥林匹斯山是华盛顿的一座山脉,以古希腊奥林匹斯山命名。赫菲斯托斯是古希腊的锻冶之神,在奥林匹斯山上有一个作坊。因此,奥林匹亚华盛顿与赫菲斯托斯的工作室同名答案是肯定的。
表17:从StrategyQA中选择并注释的完整思维链提示示例。
问:把“威利·瓦莱里娅·赞”中单词的最后几个字母连接起来。
a:让我们一步一步来考虑。“威利”的最后一个字母是“e”。“Valeria”的最后一个字母是“a”。“赞”的最后一个字母是“e”。把它们串联起来就是“eae”。答案是eae。
问:把《凯莉·吉尔·拉克什米》中单词的最后几个字母连接起来。
a:让我们一步一步来考虑。“Kylie”的最后一个字母是“e”。“Guille”的最后一个字母是“e”。“Lakshmi”的最后一个字母是“I”。把它们串联起来就是“eei”。答案是eei。
问:把“卡梅洛·雷纳尔多·萨德”中单词的最后几个字母连起来。
a:让我们一步一步来考虑。“Carmelo”的最后一个字母是“o”。“雷纳尔多”的最后一个字母是“o”。“萨德”的最后一个字母是“e”。把它们串联起来就是“ooe”。答案是ooe。
问:把《加布·文图拉·伍迪》中单词的最后几个字母连接起来。
a:让我们一步一步来考虑。“Gabe”的最后一个字母是“e”。“文图拉”的最后一个字母是“a”。“Woody”的最后一个字母是“y”。把它们串联起来就是“eay”。答案是eay。
表18:从信(4)中选择并注释的完整思维链提示的范例。
