谷歌 AI 近日发布了最新的 Speculative RAG 模型,这一方法将检索增强生成(RAG)任务分为两个独立步骤:草稿生成和验证。Speculative RAG 通过优化信息检索和文本生成的流程,提高了答案候选的质量和最终输出的生成速度。
Speculative RAG 的核心思想是利用一个较小的专用语言模型(LM)生成多个草稿,然后由一个较大的通用语言模型进行单次验证。这种方法减少了生成时间。根据实验结果,Speculative RAG 在 TriviaQA、MuSiQue、PubHealth 和 ARC-Challenge 等基准测试中准确率提高了 12.97%,延迟减少了 51%。
Speculative RAG 的工作原理可以分为两个主要步骤:草稿生成和验证。在草稿生成阶段,一个较小的专用语言模型从不同的检索文档子集中生成多个草稿。每个草稿提供了对证据的不同视角,同时减少了每个草稿的输入令牌数量。在验证阶段,一个较大的通用语言模型对所有生成的草稿进行单次验证,从而提高了生成的准确性和速度。
Speculative RAG 在多个领域展示了其应用潜力:
- 在医疗领域,Speculative RAG 可以用于生成医学回答,帮助医生和患者获取最新的医学信息。
- 在教育领域,Speculative RAG 可以用于生成教育内容,帮助学生理解复杂的概念。
- 在企业应用中,Speculative RAG 可以用于生成商业报告和分析,帮助企业做出决策。
与其他 RAG 模型相比,Speculative RAG 具有优势。传统的 RAG 模型通常依赖于单一的生成过程,这可能导致生成的答案质量不高。而 Speculative RAG 通过将生成任务分为草稿生成和验证两个步骤,提高了生成的准确性和速度。此外,Speculative RAG 还通过结合不同模型的优势,进一步提高了生成的质量。

