最近,来自黑石和英伟达的研究团队提出了一种名为 “混合检索增强生成(HybridRAG)” 的新技术,提升了金融分析的效率。金融文件通常术语繁多、格式复杂,传统的检索方法难以快速准确地提取关键信息。HybridRAG 技术结合了基于向量数据库的检索增强生成(VectorRAG)和基于知识图谱的检索增强生成(GraphRAG)的优势,将文档内容分割得更加细致,并让模型学习概念的解释与互相之间的联系,从而从复杂的金融文件中提取关键信息。
研究团队通过实验对比了三种方法的性能,数据来自一组财务盈利电话会议记录,这些文档通常采用问答(Q&A)格式,方便评估模型性能。结果显示,HybridRAG 在信息检索和答案生成方面均优于单独使用 VectorRAG 或 GraphRAG。这种方法也可以用于其他需要处理复杂专业文件的领域。
HybridRAG 技术的核心在于将 VectorRAG 和 GraphRAG 两种技术的优势结合起来,以实现更高效的金融文件检索和分析。VectorRAG 基于向量数据库,通过将文档内容转化为向量形式进行检索,能够快速找到与查询相关的内容。GraphRAG 则利用知识图谱,将文档中的概念和关系结构化,便于模型理解和生成更准确的答案。
HybridRAG 通过以下几个步骤实现其功能:
- ** 文档分割 **:将金融文件分割成更小的片段,使得每个片段都包含相对独立的信息。这一步骤有助于提高检索的精度和效率。
- ** 向量化处理 **:利用 VectorRAG 技术,将每个文档片段转化为向量形式,存储在向量数据库中。这样可以快速进行相似度计算,找到与查询最相关的片段。
- ** 知识图谱构建 **:利用 GraphRAG 技术,将文档中的概念和关系结构化,构建知识图谱。知识图谱能够帮助模型理解文档中的复杂关系,从而生成更准确的答案。
- ** 混合检索 **:在进行查询时,HybridRAG 首先利用向量数据库进行初步检索,找到与查询相关的文档片段。然后,利用知识图谱对这些片段进行进一步分析,提取出关键信息并生成答案。
实验数据表明,HybridRAG 在信息检索的准确率上达到了 85%,而单独使用 VectorRAG 和 GraphRAG 的准确率分别为 75% 和 78%。在答案生成方面,HybridRAG 的准确率为 82%,高于 VectorRAG 的 70% 和 GraphRAG 的 74%。
在金融分析中,HybridRAG 可以用于处理各种复杂的金融文件,如财务报告、盈利电话会议记录、市场分析报告等。通过快速准确地提取关键信息,HybridRAG 能够帮助分析师更高效地进行数据分析和决策支持。例如,在处理财务盈利电话会议记录时,HybridRAG 能够快速找到与特定问题相关的回答,并生成准确的答案,提高了分析效率。

