Mistral AI 推出新模型 Codestral Mamba 和 Mathstral

Mistral AI 最近推出了一款名为 Codestral Mamba（7B）的最新开源模型，这是首个基于 Mamba2 架构的代码生成模型。不同于传统的 Transformer 架构，Mamba 架构具备 “线性时间推理” 能力，理论上能处理无限长度的输入。这让 Codestral Mamba 在处理长文本时表现良好。

在基准测试中，Codestral Mamba 超越了 CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B 以及 CodeLlama 34B。Mistral AI 介绍，Codestral Mamba 已经在最多 256k token 的上下文中进行了测试，结果令人满意。Mamba 架构的创新主要体现在几个方面：选择性处理输入信息、硬件感知的算法以及更简单的架构设计。Mamba 是首个能在线性时间内匹配 Transformer 性能的模型，支持无限长度的输入，推理速度比传统 Transformer 快了五倍。

除了 Codestral Mamba，Mistral AI 还发布了一款新的数学模型 ——Mathstral（7B）。这款模型在处理复杂数学问题时表现良好，解决了多个大模型常常遇到的问题。在基准测试中，Mathstral 的表现也很突出。在 MATH 得分中，它达到了 56.6%，在 MMLU 测试中则达到了 63.47%。通过多数投票机制，Mathstral 7B 在 MATH 测试中的得分可以提升到 68.37%，而在使用强效奖励模型时，得分甚至可以达到 74.59%。

Mistral AI 通过发布 Codestral Mamba 和 Mathstral 模型，在代码生成和数学问题解决方面取得了进展。