谷歌 AI 发布 Speculative RAG 模型，准确率提升 12.97%，延迟减少 51%

谷歌 AI 近日发布了最新的 Speculative RAG 模型，这一方法将检索增强生成（RAG）任务分为两个独立步骤：草稿生成和验证。Speculative RAG 通过优化信息检索和文本生成的流程，提高了答案候选的质量和最终输出的生成速度。

Speculative RAG 的核心思想是利用一个较小的专用语言模型（LM）生成多个草稿，然后由一个较大的通用语言模型进行单次验证。这种方法减少了生成时间。根据实验结果，Speculative RAG 在 TriviaQA、MuSiQue、PubHealth 和 ARC-Challenge 等基准测试中准确率提高了 12.97%，延迟减少了 51%。

Speculative RAG 的工作原理可以分为两个主要步骤：草稿生成和验证。在草稿生成阶段，一个较小的专用语言模型从不同的检索文档子集中生成多个草稿。每个草稿提供了对证据的不同视角，同时减少了每个草稿的输入令牌数量。在验证阶段，一个较大的通用语言模型对所有生成的草稿进行单次验证，从而提高了生成的准确性和速度。

Speculative RAG 在多个领域展示了其应用潜力：

在医疗领域，Speculative RAG 可以用于生成医学回答，帮助医生和患者获取最新的医学信息。
在教育领域，Speculative RAG 可以用于生成教育内容，帮助学生理解复杂的概念。
在企业应用中，Speculative RAG 可以用于生成商业报告和分析，帮助企业做出决策。
与其他 RAG 模型相比，Speculative RAG 具有优势。传统的 RAG 模型通常依赖于单一的生成过程，这可能导致生成的答案质量不高。而 Speculative RAG 通过将生成任务分为草稿生成和验证两个步骤，提高了生成的准确性和速度。此外，Speculative RAG 还通过结合不同模型的优势，进一步提高了生成的质量。