2024 年 8 月 12 日,阿布扎比科技创新研究所(TII)发布了首个无需注意力机制的 7B 模型 ——Falcon Mamba 7B。这一模型能够处理任意长度的序列,无需增加内存存储,并且可以在单个 A10 24GB GPU 上运行。Falcon Mamba 7B 的生成新 token 的时间保持恒定,与上下文的大小无关。
Falcon Mamba 7B 基于团队自己设计的 Mamba 架构,使用选择性状态空间的线性时间序列建模,并通过添加额外的 RMS 归一化层,确保了大规模训练的稳定性。该模型在各项基准测试中表现良好,包括 IFEval、BBH、MATH LvL5、GPQA、MUSR 和 MMLU-PRO。
Falcon Mamba 7B 的技术细节包括使用了约 5500GB 的训练数据,基于选择性状态空间的线性时间序列建模,使得它能够在处理任意长度的序列时保持高效。与传统的 Transformer 模型不同,Falcon Mamba 7B 不依赖注意力机制,这减少了内存和计算资源的消耗。
在技术评估中,Falcon Mamba 7B 在多个基准测试中表现良好,包括 IFEval、BBH、MATH LvL5、GPQA、MUSR 和 MMLU-PRO。在内存使用和生成吞吐量方面,Falcon Mamba 7B 优于基于 Transformer 的模型,如 Llama 3 8B、Llama 3.1 8B、Gemma 7B 和 Mistral 7B。
此外,TII 团队还公布了一个指令优化版本的 Falcon Mamba,该版本在额外 50 亿个 tokens 的监督数据上进行了微调,执行指令任务的能力得到了进一步提升。
Falcon Mamba 7B 的应用场景包括自然语言处理(NLP)、金融和医疗领域。在 NLP 领域,Falcon Mamba 7B 可以用于文本生成、翻译、问答系统等任务。在金融领域,Falcon Mamba 7B 可以用于分析大量的金融数据,生成市场预测报告,甚至可以用于实时交易系统。在医疗领域,Falcon Mamba 7B 可以用于分析大量的医学文献,生成医学报告,甚至可以用于辅助诊断。

