英伟达最近发布了一款基于 Llama3 的新模型 ——ChatQA 2,专注于提升长文本理解和检索增强生成(RAG)任务的表现。这一新模型的发布标志着开源模型在处理大量信息时,逐渐缩小与前沿模型(如 GPT-4 Turbo)之间的差距。
研究团队通过一个 “继续训练” 的方法,将 Llama3-70B-base 的上下文窗口从 8K 扩展到 128K,使其能够一次性处理更多的信息。此外,团队设计了一个三阶段的调优过程,进一步增强了模型的指令理解、RAG 表现和长文本理解能力。
实验结果表明,ChatQA 2 在很多长文本理解任务上的表现都与 GPT-4 Turbo 不相上下,在 RAG 基准测试中甚至还超越了它。通过使用长文本检索器,ChatQA 2 有效解决了 RAG 中的 “上下文碎片化” 问题。
ChatQA 2 在处理长文档时能处理多达 128K 标记的上下文。它能从复杂的文档中提取出关键信息,并生成简洁明了的总结。比如,在总结 2024 年东京奥运会开幕式的报道时,ChatQA 2 能够快速抓住日本文化展示和科技创新的亮点。
在对话问答任务中,ChatQA 2 凭借增强的指令理解和 RAG 表现,能给出准确且相关的回答。比如,当用户询问 2024 年东京奥运会首日比赛情况时,ChatQA 2 能从相关文档中提取信息,详细描述比赛结果以及中国队在游泳和射击项目中的表现。
在信息检索任务中,ChatQA 2 同样表现优异,尤其擅长处理长文本和复杂查询。通过使用长文本检索器,ChatQA 2 能有效解决 RAG 中的 “上下文碎片化” 问题。比如,当用户查询东京奥运会在新冠疫情下的防疫措施时,ChatQA 2 能快速检索并提供详细的防疫措施和组委会的应对策略。