Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
阿布扎比科技创新研究所发布无需注意力机制的 Falcon Mamba 7B 模型

阿布扎比科技创新研究所发布无需注意力机制的 Falcon Mamba 7B 模型

2024-08-13

2024 年 8 月 12 日,阿布扎比科技创新研究所(TII)发布了首个无需注意力机制的 7B 模型 ——Falcon Mamba 7B。这一模型能够处理任意长度的序列,无需增加内存存储,并且可以在单个 A10 24GB GPU 上运行。Falcon Mamba 7B 的生成新 token 的时间保持恒定,与上下文的大小无关。

Falcon Mamba 7B 基于团队自己设计的 Mamba 架构,使用选择性状态空间的线性时间序列建模,并通过添加额外的 RMS 归一化层,确保了大规模训练的稳定性。该模型在各项基准测试中表现良好,包括 IFEval、BBH、MATH LvL5、GPQA、MUSR 和 MMLU-PRO。

Falcon Mamba 7B 的技术细节包括使用了约 5500GB 的训练数据,基于选择性状态空间的线性时间序列建模,使得它能够在处理任意长度的序列时保持高效。与传统的 Transformer 模型不同,Falcon Mamba 7B 不依赖注意力机制,这减少了内存和计算资源的消耗。

在技术评估中,Falcon Mamba 7B 在多个基准测试中表现良好,包括 IFEval、BBH、MATH LvL5、GPQA、MUSR 和 MMLU-PRO。在内存使用和生成吞吐量方面,Falcon Mamba 7B 优于基于 Transformer 的模型,如 Llama 3 8B、Llama 3.1 8B、Gemma 7B 和 Mistral 7B。

此外,TII 团队还公布了一个指令优化版本的 Falcon Mamba,该版本在额外 50 亿个 tokens 的监督数据上进行了微调,执行指令任务的能力得到了进一步提升。

Falcon Mamba 7B 的应用场景包括自然语言处理(NLP)、金融和医疗领域。在 NLP 领域,Falcon Mamba 7B 可以用于文本生成、翻译、问答系统等任务。在金融领域,Falcon Mamba 7B 可以用于分析大量的金融数据,生成市场预测报告,甚至可以用于实时交易系统。在医疗领域,Falcon Mamba 7B 可以用于分析大量的医学文献,生成医学报告,甚至可以用于辅助诊断。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5