Advertisement

ChatGPT 论文:Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models (三)

阅读量:

ChatGPT 论文:Improving Few-shot Text-to-SQL Capabilities of Large Language Models (一)
ChatGPT 论文:Improving Few-shot Text-to-SQL Capabilities of Large Language Models (二)

4 分析

4.1 基于预测语法的检索

现有的示例选择方法依赖于问题和数据库的语义表示。本文提出了一种专门针对代码生成任务的替代方法,该方法侧重于解决方案代码的语法。检查了不同策略生成的提示中的语法覆盖率和语法相似度。语法覆盖率是通过计算语法元素(关键字、运算符和标识符)的出现次数并将其除以所有语法元素的总数来计算的。另一方面,语法相似度是通过计算预测的SQL的离散向量表示与所选示例的gold SQL向量之间的欧几里得距离的平均值来测量的。如表1所示,这两个度量都有助于选择示例的质量。此外,两个度量的简单求和表明与系统性能的相关性,如图3所示。
作者通过以下理由论证本文策略的有效性:

在注释示例池中由于问题结构的数量不足,在实际应用中可能会出现一些测试问题不具备可检索的相似示例;

考虑到这些局限性,在制定检索策略时应优先考虑选择具有相似特性的示例,并努力使示例能够覆盖尽可能多的语法结构以降低基于相似度检索可能导致的不足之处

基于Sentence-BERT、RoBERTa-base以及text-embedding-ada-002模型构建的问题嵌入方案;结合问题描述和数据库信息,在下面的方法中提取对应的embedding表示;

通过基于Spider平台微调优化的T5-base模型以及text-embedding-ada-002技术,在线性化文本序列时生成高效的数据库schema或CREATE查询指令;采用不同的模型组合策略,在RoBERTa-base的基础上结合CodeT5-base/CodeBERTbase技术实现更灵活的问题与数据库交互

基于text-embedding-ada-002模型对SQL语法进行嵌入表示;该方法通过二进制表示方法表征SQL语法元素的存在状态及其出现频率;同时采用text-embedding-ada-002对问题、数据库以及预测SQL进行编码。

关于Text-to-SQL任务的基于相似度的检索方法,可以得出以下结论:

问题本身能够有效地反映不同的示例用于检索;
相较于text-embedding-ada-002而言,则是RoBERTa-base提供了更为优异的比较嵌入;
在无需对Text-to-SQL示例进行微调的情况下,则可以通过相似度检索相关数据,并且仍可达到与经过微调模型相当的效果;
通过将数据库转换为SQL查询的形式,则有助于提取更为优质的嵌入表示。

在这里插入图片描述

此外,在分析基于多样性的示例选择时

在这里插入图片描述

4.3 架构增强

图6呈现了指令应用不同架构下的增强效果。值得注意的是,在少数示例设置下这种改进的效果有限;而在零示例情况下,则通过将所有表格列的描述融入语义模型来实现的效果更加显著。

在这里插入图片描述

4.4 效果分析

为了识别对本文提出的方法受益或不受益的最突出问题类型,并进一步分析不同模型的表现特征,在Spider数据集上进行了系统性的性能评估。从图7可以看出,其相似性-多样性策略在大多数情况下均表现出良好的效果,并且这一策略尤其适用于那些高度多样化的任务。特别适用于那些高度多样化的任务的情况中检索失败和语法覆盖的重要性在这种情况中得到了显著提升。值得注意的是,在简单和中等难度的任务类别中(尽管存在较大的变异性),通过增加架构语义能够获得更好的效果;而当问题难度进一步提高时(更为复杂的问题类型),增加架构结构反而能够带来更大的收益。这些观察结果促使我们提出假设:即对于具有挑战性的案例而言,在提升效果方面表现更为突出的情形下需要解决更多的表格,并且需要更加全面地理解整个数据库结构。最后通过对综合方法进行多维度测试并验证其适用性后发现,在所有测试案例中均表现出了显著的优势,并且特别对于那些具有挑战性的案例而言,在提升效果方面表现更为突出的情形下能够获得最大的改善效果

4.5 初步模型

为了考察用于生成草稿SQL的各种初步模型选择对本文方法的影响,在不同初选方案下进行实验研究的基础上

在这里插入图片描述

5 相关工作

5.1 上下文学习(In-context Learning)

5.1.1 Prompt组织规范

提示组织探究过程及构建上下文示例集合的任务,在提高模型性能方面发挥着关键作用。研究者们开发了评估示例适用性的量化指标,并探索了这些指标的最佳排序策略。刘等研究者建议,在嵌入空间中运用k-近邻方法来筛选与测试样本语义高度相似的训练样本作为提示。鲁宾等人基于对比学习策略构建了一个提示检索系统,在该系统中将所有训练样本根据其对生成任务的支持程度划分为正向提示和负向提示两类。如果这些样本在语言模型生成目标输出时,在检索结果列表中位于概率预测的前k位或者后k位,则认为其具有较高的适用性特征。张等人提出了一种主动学习框架,在该框架下利用Q-Learning算法动态调整演示策略。

5.1.2 提示格式化

提示工程学致力于探究提示结构对下游任务性能的影响。对于多步推理及高复杂度的任务类别而言,在现有研究中已提出并实现了基于思维链的提示方法。该方法通过将生成过程分解为多个步骤实施,并利用模型自身产生的中间推导结果作为输入数据进行处理。Wang系统性地探索了多种不同类型的思维链,并通过综合评估所有可能的推理路径来确定最一致的答案选项。Press则推荐采用让LLMs自主提出后续问题的方式有效构建完整的思维链序列。Zhou则提出了一个自动化优化最佳提示方案的方法论框架,在模型生成指令库中建立评估指标体系并筛选出表现最优的提示策略。

5.2 与表格相关任务的编码

结构化数据的编码方案在涉及表格处理的任务中具有关键的重要性。它涵盖了两种主要类型:一种是经典的表格问答任务(TabQA),另一种是将自然语言问题转换为SQL查询的任务(Text-to-SQL)。在处理表格问答时,常用的方法是先通过弱监督的表格解析器提取相关单元信息,并根据需要应用相应的聚合操作符进行计算。例如,在BERT模型中引入了额外的嵌入层来捕获表格结构和数值信息。为了提高准确度,研究者们将这一过程视为一个序列生成问题,并提出了多种改进方案以提升性能和灵活性

6 总结

本研究深入探讨了多种提示设计策略,在文本到SQL的语义解析任务中取得了一定成果。

全部评论 (0)

还没有任何评论哟~