近日,谷歌 AI 发布了最新的 Speculative RAG 模型,这一方法将检索增强生成任务分为两个独立步骤:草稿生成和验证。Speculative RAG 通过优化信息检索和文本生成的流程,提高了答案候选的质量和最终输出的生成速度。
Speculative RAG 模型利用较小的专业语言模型生成多个草稿,然后由较大的通用语言模型进行验证。这种方法减少了生成时间。Speculative RAG 模型的核心在于将检索增强生成任务分为两个独立的步骤:草稿生成和验证。首先,较小的专业语言模型(specialist LM)从检索到的文档中生成多个草稿。每个草稿都是从不同的文档子集中生成的,这样可以提供多样化的证据视角,同时减少每个草稿的输入 token 数量。然后,较大的通用语言模型(generalist LM)对这些草稿进行验证,选择最优的答案候选。
这种方法能够减少生成过程中的位置偏差,并提高对每个文档子集的理解力。通过将繁重的草稿生成任务委托给较小的专业模型,Speculative RAG 加快了生成速度,并提高了生成质量。实验结果显示,Speculative RAG 在 TriviaQA、MuSiQue、PubHealth 和 ARC-Challenge 等基准测试中表现良好,准确性提高了 12.97%,生成延迟减少了 51%。
Speculative RAG 的发布在学术界和企业界引起了广泛讨论。TechRadar 的一篇文章指出,Speculative RAG 通过提高信息检索和生成的准确性,帮助企业更好地利用内部知识库。VentureBeat 则报道了 LlamaIndex 在 RAG 技术上的进展,强调了 Speculative RAG 在提高 LLM 输出质量方面的潜力。

