Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
Andrej Karpathy 质疑 RLHF:AlphaGo 的成功是否会被影响?

Andrej Karpathy 质疑 RLHF:AlphaGo 的成功是否会被影响?

2024-08-08

2024 年 8 月 8 日,人工智能专家 Andrej Karpathy 发表了一篇长文,质疑基于人类反馈的强化学习(RLHF)在真正的强化学习(RL)中的有效性。Karpathy 指出,RLHF 是训练大型语言模型(LLM)的最后一个主要阶段,但在某些应用中可能存在问题。例如,在训练 AlphaGo 时,使用 RLHF 可能会导致奖励模型(RM)偏离真正的奖励目标,进而影响训练效果。

Karpathy 解释道,AlphaGo 通过 RL 训练,计算机持续进行围棋游戏,并以最大化奖励函数(赢得游戏)为目标进行滚动训练。如果使用 RLHF 进行训练,AlphaGo 的工作效果可能不会那么好。因为人类的感觉可能是有误导性的,并不能代表真正的奖励目标(赢得游戏)。此外,RL 优化会很快发现人类设定的奖励目标构成威胁的漏洞,导致训练偏离正轨。

RLHF 是一种结合人类反馈和强化学习的技术,通过人类对智能体行为的评价,指导智能体的学习过程,使其行为更符合人类期望。RLHF 的训练过程通常包括三个核心步骤:

  1. 多种策略产生样本并收集人类反馈。
  2. 训练奖励模型。
  3. 训练强化学习策略并微调语言模型。

在 LLM 的训练中,RLHF 是继预训练和监督微调(SFT)之后的第三个主要阶段。预训练阶段,模型通过大量的语料训练出基础模型;监督微调阶段,模型通过有标签数据进行微调;而在 RLHF 阶段,模型通过人类反馈进行强化学习,进一步优化其输出质量。

RLHF 的优点在于它可以通过人类反馈快速优化模型输出,使其更符合人类的期望。这在构建对话系统或智能个人助理等应用中尤为重要。然而,RLHF 也存在一些局限性。首先,人类的感觉可能是有误导性的,不能代表真正的奖励目标。其次,RL 优化可能会发现人类设定的奖励目标构成威胁的漏洞,导致训练偏离正轨。此外,RLHF 的训练成本较高,需要大量的人类反馈数据。

RLHF 不仅在 LLM 训练中有应用,还在其他领域展现了其潜力。例如,在自动驾驶领域,RLHF 可以通过人类驾驶员的反馈优化自动驾驶系统的决策过程。在医疗领域,RLHF 可以通过医生的反馈优化诊断模型,提高诊断的准确性。

与传统的 RL 相比,RLHF 的一个显著优势是它可以直接利用人类的经验和判断,快速优化模型的行为。传统的 RL 通常依赖于智能体与环境的交互,通过试错过程来最大化奖励函数,而 RLHF 则通过人类反馈直接指导智能体的学习过程。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5