MemLong：通过增强记忆检索革新长上下文语言建模

编辑注：本篇文章是对原作者 Shreya Maji 在 MARKTECHPOST 上发表的英文文章的翻译，我们尽可能保持了原文的意思和语境，以下为翻译后原文。

论文《MemLong: Memory-Augmented Retrieval for Long Text Modeling》解决了大语言模型（LLMs）在处理长文本上下文方面的一个关键限制。尽管 LLMs 在各种应用中表现出色，但由于传统注意力机制的时间和空间复杂度呈平方增长，它们在长序列任务中表现不佳。在文本生成过程中，内存需求的增加进一步加剧了这一挑战。作者提出了一种新颖的解决方案 ——MemLong，它集成了外部检索机制以增强长文本语言建模。通过检索历史信息，MemLong 旨在显著扩展 LLMs 可以处理的上下文长度，从而拓宽其在长文档摘要和多轮对话等任务中的适用性。

当前处理 LLMs 长上下文的方法通常涉及减少注意力机制的计算复杂度或采用记忆选择策略。诸如稀疏注意力机制等技术已被开发出来以减轻计算负担，但往往会影响模型性能。其他方法，如基于标记的记忆选择，可能导致语义信息的丢失。检索增强语言建模（RALM）作为一个有前途的方向出现，结合检索机制以提高长文本处理能力。然而，这些现有方法需要修正，包括存储信息的分布变化和重新训练大型模型的不切实际性。为应对这些限制，作者引入了 MemLong，它采用了一个不可微分的检索内存模块，结合部分可训练的仅解码器语言模型。这种创新方法利用了一种细粒度、可控的检索注意力机制，专注于语义相关的信息块。

MemLong 通过在一个不可训练的内存存储中保存过去的上下文，实现了在文本生成过程中高效检索键值（K-V）对。该模型由两个主要组件组成：检索机制和内存组件。在生成过程中，MemLong 可以根据当前输入检索相关的历史信息，从而增强模型可用的上下文。这个检索机制旨在保持数据分布的一致性，确保存储在内存中的信息不会随着模型参数的更新而漂移。此外，MemLong 非常高效，仅需对模型的高层进行微小调整，大大降低了训练成本。值得注意的是，MemLong 可以将上下文长度从 4,000 个扩展到令人印象深刻的 80,000 个 token，仅需一个 GPU，展示了其处理大量文本输入的潜力。

MemLong 的性能在多个长上下文语言建模基准上经过严格评估。结果明确显示，MemLong 在检索增强的上下文学习任务中始终优于其他最先进的大语言模型（LLM），包括 OpenLLaMA。MemLong 在现有模型上实现了高达 10.2 个百分点的改进，证明了其在管理长上下文方面的有效性，同时不牺牲模型的原始能力。MemLong 的架构允许一个动态内存管理系统，根据检索频率智能更新存储的信息，确保最相关的数据被优先处理，而过时的信息被丢弃。这种动态方法结合检索因果注意力机制，使 MemLong 能够有效整合局部和历史上下文，增强其在长文本处理中的整体性能。

研究论文《MemLong: Memory-Augmented Retrieval for Long Text Modeling》为大语言模型（LLM）在处理长文本上下文时面临的挑战提供了一个有力的解决方案。通过将检索机制与记忆模块相结合，MemLong 有效地扩展了上下文长度，同时保持了计算效率和模型性能。这种创新方法克服了以往方法的局限性，为未来在长文本建模和检索增强应用方面的发展提供了一个稳健的框架。

本文翻译自 MARKTECHPOST，点击此处可查看原文