Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
Qwen-72B 在数学任务上击败 GPT-4,贾佳亚团队的 DPO 策略揭秘

Qwen-72B 在数学任务上击败 GPT-4,贾佳亚团队的 DPO 策略揭秘

2024-08-05

直接偏好优化(DPO)是当前语言模型优化领域的新方法。本文将介绍 DPO 的提出背景、具体实现步骤,以及它的应用与实验结果。

之前的优化方法,尤其是基于人类反馈的强化学习(RLHF),过程复杂且不稳定。RLHF 需要先拟合一个反映人类偏好的奖励模型,然后用强化学习微调大型语言模型(LM),以最大化估计的奖励。然而,这种方法往往会偏离原始模型,导致不稳定。为了解决这些问题,直接偏好优化(DPO)应运而生。DPO 利用奖励函数与最优策略之间的映射关系,简化了优化过程。

  1. 准备数据:需要准备一些数据,包括用户更喜欢和不喜欢的回答。
  2. 定义损失函数:定义一个 DPO 特有的损失函数,用来比较模型在生成用户喜欢和不喜欢回答时的表现,并指导模型如何改进。
  3. 训练过程:在训练过程中,定期检查模型的表现,评估其是否更好地理解并满足了用户的偏好。
  4. 效果观察:最后,观察模型训练后的效果,确保它更好地理解用户偏好。

实验结果显示,贾佳亚团队通过细化斯坦福团队的 DPO 方法,提出了 Step-DPO 策略,使 Qwen-72B 模型在多个数学任务上表现优于 GPT-4。此外,DPO 在摘要和单轮对话的响应质量上也有提升。

开源地址:[链接待补充]

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5