Advertisement

LLM论文笔记 4: Direct Preference Optimization: Your Language Model is Secretly a Reward Model

阅读量:
  • Arxiv日期:2023.5.29
  • 机构:Stanford University

关键词

  • 代码生成
  • RLHF
  • 偏好学习
  • DPO(提出)
  • 隐式奖励函数

核心结论

1. DPO在多个任务中表现与PPO相当 / 更优,不需要显式reward和RL

2. DPO目标中的动态权重是其保持稳定性的关键

3. DPO表现出对温度和超参数 β 的鲁棒性(PPO高度依赖超参数调优)

4. 参考策略

i_{ref}

初始化为SFT model能显著提高DPO性能

5. GPT-4可以作为自动评估偏好模型性能的有效工具

主要方法

传统的RLHF中:偏好数据 - > 拟合奖励模型 -> 适用奖励模型做RL(PPO)

显式的奖励模型具有潜在误导性 (偏差或高方差)

DPO :不涉及奖励模型的训练及强化学习过程,并通过重参数化技术实现对语言模型的直接优化目标——即以提升与人类偏好的一致性为目标

Reparameterizing the reward function as a logarithmic proportion of the language model's strategy directly maps human preferences to the optimization of the strategy.

该模型遵循Bradley-Terry偏好模型(偏好概率与其奖励值差异呈指数比例关系)的目标函数

动态权重 梯度下降优化

总结:RLHF 和 DPO 的区别

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

全部评论 (0)

还没有任何评论哟~