阿布扎比科技创新研究所发布无需注意力机制的 Falcon Mamba 7B 模型

2024 年 8 月 12 日，阿布扎比科技创新研究所（TII）发布了首个无需注意力机制的 7B 模型 ——Falcon Mamba 7B。这一模型能够处理任意长度的序列，无需增加内存存储，并且可以在单个 A10 24GB GPU 上运行。Falcon Mamba 7B 的生成新 token 的时间保持恒定，与上下文的大小无关。

Falcon Mamba 7B 基于团队自己设计的 Mamba 架构，使用选择性状态空间的线性时间序列建模，并通过添加额外的 RMS 归一化层，确保了大规模训练的稳定性。该模型在各项基准测试中表现良好，包括 IFEval、BBH、MATH LvL5、GPQA、MUSR 和 MMLU-PRO。

Falcon Mamba 7B 的技术细节包括使用了约 5500GB 的训练数据，基于选择性状态空间的线性时间序列建模，使得它能够在处理任意长度的序列时保持高效。与传统的 Transformer 模型不同，Falcon Mamba 7B 不依赖注意力机制，这减少了内存和计算资源的消耗。

在技术评估中，Falcon Mamba 7B 在多个基准测试中表现良好，包括 IFEval、BBH、MATH LvL5、GPQA、MUSR 和 MMLU-PRO。在内存使用和生成吞吐量方面，Falcon Mamba 7B 优于基于 Transformer 的模型，如 Llama 3 8B、Llama 3.1 8B、Gemma 7B 和 Mistral 7B。

此外，TII 团队还公布了一个指令优化版本的 Falcon Mamba，该版本在额外 50 亿个 tokens 的监督数据上进行了微调，执行指令任务的能力得到了进一步提升。

Falcon Mamba 7B 的应用场景包括自然语言处理（NLP）、金融和医疗领域。在 NLP 领域，Falcon Mamba 7B 可以用于文本生成、翻译、问答系统等任务。在金融领域，Falcon Mamba 7B 可以用于分析大量的金融数据，生成市场预测报告，甚至可以用于实时交易系统。在医疗领域，Falcon Mamba 7B 可以用于分析大量的医学文献，生成医学报告，甚至可以用于辅助诊断。