Advertisement

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

阅读量:

DPO直接偏好优化:你的语言模型实际上是一个奖励模型

前言知识储备

  • 什么是用户偏好数据

目的:旨在引导模型行为以实现特定目标和效果。
用户偏好数据通常体现用户对特定内容、风格、观点或者互动方式的倾向。
收集用户偏好数据的方法主要包括直接反馈、隐式反馈以及比较数据三种形式。
其中:

直接反馈主要通过评分、点赞或踩等互动方式来表达用户的喜好;
隐式反馈通过分析用户的搜索历史和点击行为等数据模式来推断用户的偏好;
比较数据阶段,则是让用户在两个或多个选项中进行偏好选择。
用户偏好信息可应用于多个方面:
在模型训练阶段,则是利用用户偏好数据作为监督信号来指导模型学习生成更符合用户期望的内容;
在微调优化阶段,则是基于已有的训练成果进一步利用用户偏好信息来提升模型性能;
最后,在交互体验设计中,则会根据用户的偏好的个性化设置提供定制化的内容和服务。

  • prompt

输入到模型中以生成特定输出或响应的文字信息即为prompt。它既可以表现为一个问题陈述也可以是一个指令指示其功能使用方式以及定义其预期结果形式。
在自然语言处理系统中prompt具有明确的功能定位和作用机制它能够指导模型理解和处理特定的任务内容并指导模型生成相应的响应内容。

基本概念:
该方法主要应用于训练人工智能模型,并融合了强化学习算法与人工反馈机制。在强化学习框架中,智能体(如语言模型)会在环境中执行一系列动作以实现目标,并通过奖励信号来优化行为策略。在强化学习的人类反馈强化(RLHF)模式中,在线的奖励信号部分由人工提供。
以语言生成模型为例,在生成文本后,人类可以根据生成内容的质量(包括准确性、相关性及连贯性等指标)对其进行评分作为奖励信号,并将这些评分反向传递给模型作为反馈依据。基于这些人工反馈信息对模型进行参数优化调整,在线训练过程使模型能够逐步生成更符合人类预期的高质量文本。

  • 最大化积累奖励:

在强化学习中, 智能体(如语言模型)与环境互动. 智能体在每个时间步(如语言模型在生成每个单词时)选择一个动作. 环境根据这个动作返回奖励信息. 为了使积累的总奖励最大化, 智能体试图找到一系列的动作策略, 使得在整个交互过程中(如生成完整句子或文本段落), 获得的所有奖励之和达到最大. 例如, 在简单的语言生成任务中, 智能体(语言模型)的目标是输出能够准确回答问题的一个句子. 当生成的回答正确时, 评估机制可能会给予正反馈; 否则会给予负反馈或零反馈. 智能体需要通过调整自己的方法(比如选择不同词语的概率分布), 在大量尝试回答问题的过程中, 尽可能多地获得正面反馈.

语言模型

定义:语言模型是一种基于概率论构建的一种数学框架,在文本序列预测中扮演着重要角色。它通过分析已有的文本信息来推断后续可能出现的内容及其可能性。

具体而言:在自然语言处理领域中,
语言模型旨在模拟人类对上下文的理解能力,
其主要功能是预测在已知连续词序列的前提下,
在后续位置上各可能词出现的概率分布情况。

  • 统计语言模型方法(以N-gram为例)

N−gram语言模型是一种基于统计学原理的语言模型。它通过分析文本数据中词语之间的关系来预测下一个可能出现的词语。具体而言,在这种模型中每一个词语的概率分布仅仅受到其前面连续N−1个词语的影响。
为了训练这样的语言模型首先要构建一个大规模的数据资源库,并对其中每个词素及其周围词汇组合进行频率统计。
随后系统地对语料库里所有可能生成的一系列双词组(2−gram)以及三词组(3−gram),例如"我 喜欢"、"我 喜欢 阅读"等进行频率记录。
接着通过分析这些数据构建概率分布表并完成相关的参数估计工作。
这样的语言模型能够根据输入的一系列关键词预测可能出现的各种后续词汇及其可能性。

在这里插入图片描述
  • 神经网络语言模型(以transformer架构为例)

词向量表示 通过词嵌入技术将单词映射到向量空间中。
自注意力机制与上下文分析 在Transformer架构内通过自注意力机制进行上下文分析。
在生成过程中 当模型预测下一个单词为"阅读"时 会综合考虑"我"与"喜欢"之间的语义关联。
这种机制能够动态计算各单词相对于其他单词的重要性权重 从而实现精准的上下文理解。

  • 理解自注意力机制实现句子中各个单词之间关系

假设我们有4个单词。通过词嵌入模型进行线性变换后,每个句子会被表示成一个连续的空间中的点。

在计算"我"这个词与其他所有相关词语之间的关系时,在计算"我"这个词与其他所有相关词语之间的关系时,

我们首先会生成一个查询表示(query vector),它能够捕获该词的核心语义信息。

随后,在生成该查询表示之后,

我们会利用该查询表示与整个词汇空间中的每一个词的相关程度,

通过计算出注意力分数,

然后转换为注意力权重。

最后将这些注意力权重与相应其他所有相关词语的值向量进行加权求和,

得到的结果就是原始句子的理解结果。

详细解释见 自注意力机制

介绍

RLHF是一种复杂且经常不可预测的过程,在这一过程中首先构建了一个能够反映人类偏好程度的奖励模型,并随后通过强化学习的方法对无监督学习的大规模语言模型进行了微调。这一过程的目标是最大化对这种估计的奖励值,并在确保其不偏离原始模型过于远的前提下实现目标。
DPO直接优化了目标偏好

一种新的RLHF奖励模型被提出,并允许我们直接提取最优策略的一种闭合形式表示。这种方法使得我们可以通过简单的分类损失就能有效解决标准RLHF问题,并将这种解决方案命名为直接偏好优化DPO算法。
DPO算法具有良好的稳定性与性能特点,在计算资源方面也极为高效。它成功地消除了传统微调过程中的两个主要限制因素:对语言模型(LM)进行采样的需求以及对大量超参数进行调节的需求。研究表明,在情感控制方面超越了基于PPO的传统方法,在总结性文本与对话性交流任务中实现了相同或更好的回答质量提升的同时,在实现与训练流程上都更为简便。

全部评论 (0)

还没有任何评论哟~