英伟达发布 ChatQA 2：长文本理解性能媲美 GPT-4 Turbo

英伟达最近发布了一款基于 Llama3 的新模型 ——ChatQA 2，专注于提升长文本理解和检索增强生成（RAG）任务的表现。这一新模型的发布标志着开源模型在处理大量信息时，逐渐缩小与前沿模型（如 GPT-4 Turbo）之间的差距。

研究团队通过一个 “继续训练” 的方法，将 Llama3-70B-base 的上下文窗口从 8K 扩展到 128K，使其能够一次性处理更多的信息。此外，团队设计了一个三阶段的调优过程，进一步增强了模型的指令理解、RAG 表现和长文本理解能力。

实验结果表明，ChatQA 2 在很多长文本理解任务上的表现都与 GPT-4 Turbo 不相上下，在 RAG 基准测试中甚至还超越了它。通过使用长文本检索器，ChatQA 2 有效解决了 RAG 中的 “上下文碎片化” 问题。

ChatQA 2 在处理长文档时能处理多达 128K 标记的上下文。它能从复杂的文档中提取出关键信息，并生成简洁明了的总结。比如，在总结 2024 年东京奥运会开幕式的报道时，ChatQA 2 能够快速抓住日本文化展示和科技创新的亮点。

在对话问答任务中，ChatQA 2 凭借增强的指令理解和 RAG 表现，能给出准确且相关的回答。比如，当用户询问 2024 年东京奥运会首日比赛情况时，ChatQA 2 能从相关文档中提取信息，详细描述比赛结果以及中国队在游泳和射击项目中的表现。

在信息检索任务中，ChatQA 2 同样表现优异，尤其擅长处理长文本和复杂查询。通过使用长文本检索器，ChatQA 2 能有效解决 RAG 中的 “上下文碎片化” 问题。比如，当用户查询东京奥运会在新冠疫情下的防疫措施时，ChatQA 2 能快速检索并提供详细的防疫措施和组委会的应对策略。