Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
Mistral AI 推出新模型 Codestral Mamba 和 Mathstral

Mistral AI 推出新模型 Codestral Mamba 和 Mathstral

2024-07-17

Mistral AI 最近推出了一款名为 Codestral Mamba(7B)的最新开源模型,这是首个基于 Mamba2 架构的代码生成模型。不同于传统的 Transformer 架构,Mamba 架构具备 “线性时间推理” 能力,理论上能处理无限长度的输入。这让 Codestral Mamba 在处理长文本时表现良好。

在基准测试中,Codestral Mamba 超越了 CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B 以及 CodeLlama 34B。Mistral AI 介绍,Codestral Mamba 已经在最多 256k token 的上下文中进行了测试,结果令人满意。Mamba 架构的创新主要体现在几个方面:选择性处理输入信息、硬件感知的算法以及更简单的架构设计。Mamba 是首个能在线性时间内匹配 Transformer 性能的模型,支持无限长度的输入,推理速度比传统 Transformer 快了五倍。

除了 Codestral Mamba,Mistral AI 还发布了一款新的数学模型 ——Mathstral(7B)。这款模型在处理复杂数学问题时表现良好,解决了多个大模型常常遇到的问题。在基准测试中,Mathstral 的表现也很突出。在 MATH 得分中,它达到了 56.6%,在 MMLU 测试中则达到了 63.47%。通过多数投票机制,Mathstral 7B 在 MATH 测试中的得分可以提升到 68.37%,而在使用强效奖励模型时,得分甚至可以达到 74.59%。

Mistral AI 通过发布 Codestral Mamba 和 Mathstral 模型,在代码生成和数学问题解决方面取得了进展。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5