Mistral AI 最近推出了一款名为 Codestral Mamba(7B)的最新开源模型,这是首个基于 Mamba2 架构的代码生成模型。不同于传统的 Transformer 架构,Mamba 架构具备 “线性时间推理” 能力,理论上能处理无限长度的输入。这让 Codestral Mamba 在处理长文本时表现良好。
在基准测试中,Codestral Mamba 超越了 CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B 以及 CodeLlama 34B。Mistral AI 介绍,Codestral Mamba 已经在最多 256k token 的上下文中进行了测试,结果令人满意。Mamba 架构的创新主要体现在几个方面:选择性处理输入信息、硬件感知的算法以及更简单的架构设计。Mamba 是首个能在线性时间内匹配 Transformer 性能的模型,支持无限长度的输入,推理速度比传统 Transformer 快了五倍。
除了 Codestral Mamba,Mistral AI 还发布了一款新的数学模型 ——Mathstral(7B)。这款模型在处理复杂数学问题时表现良好,解决了多个大模型常常遇到的问题。在基准测试中,Mathstral 的表现也很突出。在 MATH 得分中,它达到了 56.6%,在 MMLU 测试中则达到了 63.47%。通过多数投票机制,Mathstral 7B 在 MATH 测试中的得分可以提升到 68.37%,而在使用强效奖励模型时,得分甚至可以达到 74.59%。
Mistral AI 通过发布 Codestral Mamba 和 Mathstral 模型,在代码生成和数学问题解决方面取得了进展。