2024 年 8 月 5 日,国外网友 Ravi Theja 发布了一组名为 BRAG 的高性能 RAG(检索增强生成)模型,每个模型的训练成本不到 25 美元(人民币 178.7 元)。这一消息迅速引起了广泛关注。
Theja 在 Modal Labs 平台上使用四个 H100 GPU 在一小时内完成了单个 epoch 的训练,成本为每小时 5.92 美元。这样,仅花费 25 美元就训练出了 7B/8B 模型,而训练 1.5B 模型则只需约 10 美元(人民币 71.5 元)。这些小型语言模型(SLM)的性能在 ChatRAG-Bench 评估基准上的表现超过了 Cohere’s Command R+,接近 GPT-4-Turbo 和 Nvidia’s ChatQA-1.5-8B。
BRAG 模型的低成本训练方法是其关键之一。Ravi Theja 采用了一种训练方法,结合了 LoRA(低秩适应)和 QLoRA 技术,使得在保持高性能的同时,大幅降低了训练成本。
LoRA(低秩适应)是一种通过调节超参数 r 来定义低秩矩阵的秩值的方法。r 值越小,训练所需参数越少,从而加快训练速度并降低计算需求。这种方法不仅提高了训练效率,还减少了对高性能硬件的依赖,使得在消费级 GPU 上进行训练成为可能。
QLoRA 是 LoRA 的变体,将预训练大语言模型的权重参数量化到 4 位精度,显著减少了内存占用。通过这种量化技术,BRAG 模型能够在保持高精度的同时,进一步降低计算资源的需求。这种技术的应用,使得 BRAG 模型在性能和成本之间找到了平衡点。
BRAG 模型的发布还引发了关于 AI 模型训练成本的广泛讨论。许多用户认为,BRAG 模型的低成本训练方法,为 AI 领域提供了一种更具成本效益的解决方案。