直接偏好优化(DPO)是当前语言模型优化领域的新方法。本文将介绍 DPO 的提出背景、具体实现步骤,以及它的应用与实验结果。
之前的优化方法,尤其是基于人类反馈的强化学习(RLHF),过程复杂且不稳定。RLHF 需要先拟合一个反映人类偏好的奖励模型,然后用强化学习微调大型语言模型(LM),以最大化估计的奖励。然而,这种方法往往会偏离原始模型,导致不稳定。为了解决这些问题,直接偏好优化(DPO)应运而生。DPO 利用奖励函数与最优策略之间的映射关系,简化了优化过程。
- 准备数据:需要准备一些数据,包括用户更喜欢和不喜欢的回答。
- 定义损失函数:定义一个 DPO 特有的损失函数,用来比较模型在生成用户喜欢和不喜欢回答时的表现,并指导模型如何改进。
- 训练过程:在训练过程中,定期检查模型的表现,评估其是否更好地理解并满足了用户的偏好。
- 效果观察:最后,观察模型训练后的效果,确保它更好地理解用户偏好。
实验结果显示,贾佳亚团队通过细化斯坦福团队的 DPO 方法,提出了 Step-DPO 策略,使 Qwen-72B 模型在多个数学任务上表现优于 GPT-4。此外,DPO 在摘要和单轮对话的响应质量上也有提升。
开源地址:[链接待补充]