Advertisement

From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection

阅读量:

方法

该方法划分为三个关键阶段:通过积累简短的经验来学习;随后对经验进行评估;并结合自我指导的经验进行后续培训。在初始阶段则着重于为模型建立基础性的指令遵循机制;在随后的过程中引入了一种新的量化指标来评估每个样本所涉及的任务难度;最终,在获取了目标数据集中的任务难度评分之后,则采用精选样本训练出最终版本的模型

1. 从简短的经验中学习

将模型先馈送一部分目标数据集的子集,并对其中的数据进行处理

假设我们的原始数据集有n对三元对x=(指令,输入,回答)。

在这里插入图片描述

该公式的含义在于:对每一条数据中的QuestionQuestion字段进行处理,并将其作为LLMLLM模型的输入数据;随后计算每个token对应的输出结果;最后将所有token的结果进行求平均值处理。

通过获得每一条数据的特征向量之后,在此基础上应用K-means算法进行聚类操作;随后针对每一个聚类后的样本生成相应的子集。

2. 基于经验的评估

首先是条件回答概率:

在这里插入图片描述

条件回答概率P(y|x)反映了微调后模型在特定情境下呈现标准答案的可能性。

然后是直接回答概率:

在这里插入图片描述

给定一个大模型,没有上下文,给出这个回答的概率是多少。

最终的IFDIFD得分就是二者相除:

在这里插入图片描述

一般情况下,在分析下一个标记预测时所依据的基本性质导致了条件回答得分低于直接回答得分。这是因为基于当前提供的背景信息后一个标记应更为容易地被预测。从而可以看出,在这种情况下当IFD指数超过1时条件回答得分甚至超过了直接的回答得分。这表明该指令未能有效提供必要的上下文信息以支持后续反应预测。在这种情形下我们排除了该指令与其相关响应之间的关联性。

实验

1. 对战实验

在这里插入图片描述

2. 不同数据比例下,胜率的变化

在这里插入图片描述

3. Leaderboard

在这里插入图片描述

消融

在这里插入图片描述

值得深思的是,在采用CA score(即当输入一个问题时)来衡量回答的不确定性程度后,并筛选出高不确定性答案的数据样本进行训练时,并非能够提升模型性能反而是导致模型性能反而下降的现象表明除以直接计算回答分数的方法仍然具有有效性

Cherry数据的特点

在这里插入图片描述

与以往的观点不同, 樱桃数据并非均匀分散.相反, 高难度样本与低难度样本之间存在明确的分界线, 这一发现 challenge了传统的观点, 即所选的数据必须跨越整个指令谱并尽可能多样化.

在这里插入图片描述

低IFD分数样本主导的集群中充斥着编辑标点符号、单词或短语等基础性工作内容;而IFD得分较高的群体则承担更为复杂且深入的任务角色;例如他们需要编写故事或阐述现象。

通过实证研究发现,高ifd数据与低ifd数据在模式特征上存在显著差异.高ifd数据主要涵盖诸如编写故事、生成列表以及阐述概念等指令,这些指令通常需要高度的创造力、逻辑思维能力以及深入的理解力.相比之下,低ifd数据更多地遵循既定规则,对创造性和逻辑性的要求相对较低.这一发现进一步显示其在筛选富含创造性和复杂需求的数据方面具有显著优势.

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~