LLM论文笔记 4: Direct Preference Optimization: Your Language Model is Secretly a Reward Model
发布时间
阅读量:
阅读量
- Arxiv日期:2023.5.29
- 机构:Stanford University
关键词
- 代码生成
- RLHF
- 偏好学习
- DPO(提出)
- 隐式奖励函数
核心结论
1. DPO在多个任务中表现与PPO相当 / 更优,不需要显式reward和RL
2. DPO目标中的动态权重是其保持稳定性的关键

3. DPO表现出对温度和超参数 β 的鲁棒性(PPO高度依赖超参数调优)
4. 参考策略

初始化为SFT model能显著提高DPO性能
5. GPT-4可以作为自动评估偏好模型性能的有效工具
主要方法
传统的RLHF中:偏好数据 - > 拟合奖励模型 -> 适用奖励模型做RL(PPO)
显式的奖励模型具有潜在误导性 (偏差或高方差)

DPO :不涉及奖励模型的训练及强化学习过程,并通过重参数化技术实现对语言模型的直接优化目标——即以提升与人类偏好的一致性为目标
Reparameterizing the reward function as a logarithmic proportion of the language model's strategy directly maps human preferences to the optimization of the strategy.

该模型遵循Bradley-Terry偏好模型(偏好概率与其奖励值差异呈指数比例关系)的目标函数

动态权重 梯度下降优化

总结:RLHF 和 DPO 的区别

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文
全部评论 (0)
还没有任何评论哟~
