首个无需注意力机制模型 Falcon Mamba 7B 发布，打破长序列计算难题

2024 年 8 月 12 日，阿布扎比科技创新研究所（TII）发布了首个无需注意力机制的 7B 模型 ——Falcon Mamba 7B。这一模型能够处理任意长度的序列，无需增加内存存储，并且可以在单个 A10 24GB GPU 上运行。Falcon Mamba 7B 的生成新 token 的时间保持恒定，与上下文的大小无关。

什么是 Falcon Mamba 7B

Falcon Mamba 7B 基于原始 Mamba 架构，使用选择性状态空间的线性时间序列建模，并通过添加额外的 RMS 归一化层，确保了大规模训练的稳定性。Falcon Mamba 模型创新性地引入了 RMS 归一化层，这一举措不仅提升了训练的稳定性，还为模型在各种应用场景中的出色表现奠定了基础。

Falcon Mamba 7B 的技术细节包括使用了约 5500GB 的训练数据，主要包括 RefinedWeb 数据，并添加了来自公共来源的高质量技术数据和代码数据。在训练过程中，大部分时间使用恒定学习率，随后是相对较短的学习率衰减阶段。在最后阶段，还添加了一小部分高质量的策划数据，以进一步提高模型性能。

Falcan Mamba 7B 基于选择性状态空间的线性时间序列建模，使得它能够在处理任意长度的序列时保持高效。传统 Transformer 模型在处理长序列时常常面临计算和内存成本的剧增，而 Falcon Mamba 模型打破了这一限制，以其独特的架构实现了高效的长序列处理。

在技术评估中，Falcon Mamba 7B 在多个基准测试中表现良好，包括 IFEval、BBH、MATH LvL5、GPQA、MUSR 和 MMLU-PRO。

在内存使用和生成吞吐量方面，Falcon Mamba 7B 优于基于 Transformer 的模型，如 Llama 3 8B、Llama 3.1 8B、Gemma 7B 和 Mistral 7B。在生成吞吐量方面，Falcon Mamba 在生成所有标记时具有恒定的吞吐量，且 CUDA 峰值内存没有增加，而 Transformer 模型的峰值内存会随着生成标记数量的增加而增长，生成速度会减慢。

在实验中，即使对于并行预填充，Falcon Mamba 也能比 Transformer 适应更大的序列；在序列预填充中，它发挥了全部潜力，可以处理任意长的提示。

此外，TII 团队还公布了一个指令优化版本的 Falcon Mamba，该版本在额外 50 亿个 tokens 的监督数据上进行了微调，执行指令任务的能力得到了进一步提升。

Falcon Mamba 模型的创新使其能够在单个 A10 24GB GPU 上顺畅运行，这为边缘计算和资源受限的应用场景带来了新的机遇。

Mamba 是怎么出现的

自 2017 年 Transformer 架构问世以来，它已经成为 AI 大模型的标配。然而，随着模型规模的扩展和处理序列的长度增加，Transformer 的局限性也逐渐暴露。一个突出的问题是其自注意力机制的计算量会随着上下文长度的增加成平方级增长。这意味着，处理长序列时，计算量会迅速膨胀，效率大打折扣。

为了克服 Transformer 的这些短板，研究者们推出了 Mamba 架构。Mamba 引入了选择性状态空间模型（SSM），这种模型能够根据输入动态调整参数，从而过滤掉无关信息并记住重要信息。与 Transformer 不同，Mamba 可以实现线性扩展，这使得它在处理长序列时具有优势。Mamba 还能在不增加额外内存或计算资源的情况下，处理长文本序列。

自问世以来，Mamba 架构经历了多次迭代和优化。早期的 Mamba 1 已经展示了其在中小型规模上的潜力。随后，Mamba 2 进一步改进了选择性 SSM 的设计，提升了速度和性能。Mamba 2 的发布标志着这一架构在语言建模方面的新突破，训练速度提高了 2-8 倍。

Mamba 架构的一大创新在于其选择机制。这个机制允许模型根据输入动态调整参数，过滤掉无关信息并记住相关内容。这种机制和 Transformer 中的注意力机制类似，但效率更高。因此，Mamba 在处理长文本序列时，能够保持计算性能，而无需增加额外的内存或计算资源。

Mamba 架构不仅在自身设计上具有优势，还能与 Transformer 架构结合，形成混合架构。一个案例是 Jamba 模型，它融合了 Mamba 和 Transformer 的优点，优化了内存使用，提高了吞吐量和性能。

Mamba 架构在处理多模态数据方面也表现出色。无论是语言、音频还是基因组学，Mamba 都展示了建模能力。它能够捕捉长程依赖关系，在复杂序列数据中实现性能。例如，在音频波形和 DNA 序列建模方面，Mamba 的表现优于许多之前的 SOTA 模型。

Mamba 的未来潜力

尽管 Transformer 在推动基础模型成功方面发挥了重要作用，但它存在计算和内存效率问题。Mamba 作为一种有潜力的替代架构，能够在捕捉长程依赖的同时提高训练和推理效率，发展基于 Mamba 的特定领域基础模型具有巨大潜力，可以解决 Transformer 模型面临的问题。

Mamba – 1 和 Mamba – 2 提出的硬件感知计算算法为解决计算效率问题提供了新思路，探索如 FlashButterfly 等新的硬件高效算法，有助于优化硬件利用，不仅对 SSMs，对 Transformers 和 RNNs 等架构也有益。

Mamba 在多个领域取得了显著成功，但研究仍处于初级阶段。SSMs 的发展虽带来好处，但 Mamba 模型作为数据依赖模型，可能存在决策不稳定、隐私问题等威胁。

确保 Mamba 模型的可信度至关重要，包括安全性与稳健性、公平性、可解释性和隐私性四个关键维度。例如，通过自动预处理输入、采用对抗机器学习等方法提高安全性与稳健性；解决模型在训练数据中存在的偏见以提高公平性；目前对 Mamba 模型功能的理解尚处于早期阶段，需要进一步研究其可解释性；通过交叉验证输出和筛选敏感内容、采用联邦学习和集成隐私意识的正则化技术等保护隐私。

Mamba 模型未来的重要方向包括探索参数高效微调（PEFT）技术，如 LoRA 和 Adapter families，以拓宽 Mamba 在下游任务中的应用；研究解决 Mamba 模型中的灾难性遗忘问题，可借鉴 Reward Maximization 和 Distribution Matching 策略以及持续学习方法；将检索增强生成（RAG）技术与 Mamba 语言模型结合，以帮助其产生高质量输出。

参考链接：

https://huggingface.co/blog/falconmamba?continueFlag=786f06eac13a7e4100867beb5d6cb7df

https://arxiv.org/abs/2408.01129