2024 年 8 月 27 日,Meta 发布了三篇技术文章,详细介绍了如何使用特定领域数据微调大语言模型(LLM),如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。这些文章解释了预训练和继续预训练的过程,预训练使用数万亿个 token 数据进行自监督算法训练,通常需要数千个 GPU 小时。继续预训练则使用全新的领域数据进一步训练基础模型。微调则是以监督方式使用带注释的数据或基于强化学习的技术来适配预训练语言模型的过程。
Meta 的指南不仅提供了详细的技术步骤,还包括实际应用案例。例如,一家医疗科技公司使用 Meta 的指南微调了一个基础模型,以便更好地处理医学文献和诊断数据。通过继续预训练和微调,该公司提高了模型在医学领域的表现,能够更准确地识别和分析医学术语和症状。
除了 Meta,其他科技公司也在大模型微调方面取得了进展。百度近期宣布了一项名为 “自我推理” 框架的成果,该框架赋予 AI 系统以批判性思维,使其能够自主评估并验证自身知识与决策过程的准确性。百度的研究团队表示,这一框架通过相关性感知、证据感知的选择以及轨迹分析,提升了检索增强语言模型(RARMs)的可靠性和可追溯性。
OpenAI 则提出了 Prover-Verifier Games(PVG)训练框架,通过模拟证明者和验证者之间的互动,提高模型的输出质量。在这个机制中,Prover(证明者)生成内容,而 Verifier(验证者)判断这些内容是否正确。通过这种博弈论的训练方法,OpenAI 提升了模型的输出准确率和可控性。
这些技术的对比显示出各大科技公司在大模型微调方面的不同策略和创新点。Meta 的指南侧重于资源有限团队的实际操作,而百度和 OpenAI 则在提升模型可靠性和输出质量方面进行了探索。

