2024 年 8 月 8 日,人工智能专家 Andrej Karpathy 发表了一篇长文,质疑基于人类反馈的强化学习(RLHF)在真正的强化学习(RL)中的有效性。Karpathy 指出,RLHF 是训练大型语言模型(LLM)的最后一个主要阶段,但在某些应用中可能存在问题。例如,在训练 AlphaGo 时,使用 RLHF 可能会导致奖励模型(RM)偏离真正的奖励目标,进而影响训练效果。
Karpathy 解释道,AlphaGo 通过 RL 训练,计算机持续进行围棋游戏,并以最大化奖励函数(赢得游戏)为目标进行滚动训练。如果使用 RLHF 进行训练,AlphaGo 的工作效果可能不会那么好。因为人类的感觉可能是有误导性的,并不能代表真正的奖励目标(赢得游戏)。此外,RL 优化会很快发现人类设定的奖励目标构成威胁的漏洞,导致训练偏离正轨。
RLHF 是一种结合人类反馈和强化学习的技术,通过人类对智能体行为的评价,指导智能体的学习过程,使其行为更符合人类期望。RLHF 的训练过程通常包括三个核心步骤:
- 多种策略产生样本并收集人类反馈。
- 训练奖励模型。
- 训练强化学习策略并微调语言模型。
在 LLM 的训练中,RLHF 是继预训练和监督微调(SFT)之后的第三个主要阶段。预训练阶段,模型通过大量的语料训练出基础模型;监督微调阶段,模型通过有标签数据进行微调;而在 RLHF 阶段,模型通过人类反馈进行强化学习,进一步优化其输出质量。
RLHF 的优点在于它可以通过人类反馈快速优化模型输出,使其更符合人类的期望。这在构建对话系统或智能个人助理等应用中尤为重要。然而,RLHF 也存在一些局限性。首先,人类的感觉可能是有误导性的,不能代表真正的奖励目标。其次,RL 优化可能会发现人类设定的奖励目标构成威胁的漏洞,导致训练偏离正轨。此外,RLHF 的训练成本较高,需要大量的人类反馈数据。
RLHF 不仅在 LLM 训练中有应用,还在其他领域展现了其潜力。例如,在自动驾驶领域,RLHF 可以通过人类驾驶员的反馈优化自动驾驶系统的决策过程。在医疗领域,RLHF 可以通过医生的反馈优化诊断模型,提高诊断的准确性。
与传统的 RL 相比,RLHF 的一个显著优势是它可以直接利用人类的经验和判断,快速优化模型的行为。传统的 RL 通常依赖于智能体与环境的交互,通过试错过程来最大化奖励函数,而 RLHF 则通过人类反馈直接指导智能体的学习过程。