为了向埃及艳后克里奥帕特拉(Cleopatra)致敬,Mistral AI 宣布推出专门用于代码生成的尖端语言模型(LLM)Codestral Mamba 7B。这个新模型基于 Mamba2 架构,是人工智能和编码技术领域的一个重要里程碑。Codestral Mamba 7B 根据 Apache 2.0 许可发布,可供免费使用、修改和分发,有望为人工智能架构研究开辟新的途径。
Codestral Mamba 7B 的发布,是继 Mistral AI 早些时候在 Mixtral 系列产品上取得成功之后的又一重大突破,Codestral Mamba 7B 有别于传统的 Transformer 模型,它提供线性时间推理和对无限长序列建模的理论能力。 这一独特功能使用户可以广泛使用模型,无论输入长度如何,都能获得快速响应。这种效率对于编码应用尤为重要,使 Codestral Mamba 7B 成为提高编码效率的强大工具。
Codestral Mamba 7B 可胜任高级代码和推理任务。该模型的性能与最先进的基于 Transformer(SOTA)的模型不相上下,是开发人员极具竞争力的选择。Mistral AI 已对 Codestral Mamba 7B 的上下文检索能力进行了严格测试,该能力可处理多达 256k 标记,使其成为出色的本地代码助手。
在基准测试中,Codestral Mamba 超越了 CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B 以及 CodeLlama 34B。Mistral AI 介绍,Codestral Mamba 已经在最多 256k token 的上下文中进行了测试,结果令人满意。Mamba 架构的创新主要体现在几个方面:选择性处理输入信息、硬件感知的算法以及更简单的架构设计。Mamba 是首个能在线性时间内匹配 Transformer 性能的模型,支持无限长度的输入,推理速度比传统 Transformer 快了五倍。
为便于测试和使用,Codestral Mamba 7B 还可在 “la Plateforme”(codestral-mamba-2407)上与功能更强大的 Codestral 22B 一起使用。Codestral Mamba 7B 采用允许使用的 Apache 2.0 许可证,而 Codestral 22B 则采用用于自行部署的商业许可证和用于测试的社区许可证。这种双重可用性确保了从个人开发者到大型企业的不同用户都能从这些先进的模型中受益。
Codestral Mamba 7 B 拥有 7,285,403,648 个参数,确保了各种编码和人工智能任务的高性能和可靠性。作为一款指令机型,Codestral Mamba 7 B 可处理复杂指令并提供精确输出。
除了 Codestral Mamba,Mistral AI 还发布了一款新的数学模型 ——Mathstral(7B)。 这款模型在处理复杂数学问题时表现良好,解决了多个大模型常常遇到的问题。在基准测试中,Mathstral 的表现也很突出。在 MATH 得分中,它达到了 56.6%,在 MMLU 测试中则达到了 63.47%。通过多数投票机制,Mathstral 7B 在 MATH 测试中的得分可以提升到 68.37%,而在使用强效奖励模型时,得分甚至可以达到 74.59%。
关键特性
- 专注数学问题:Mathstral 通过大量的数学文本和问题进行训练,特别擅长处理数学表达式、方程和逻辑推理任务。
- 精确生成:该模型能够生成精确的数学解答和步骤说明,帮助用户理解复杂的数学问题。
- 多领域适用:Mathstral 不仅适用于教育领域,还能在科研和工程等领域提供帮助,解决复杂的数学计算和建模问题。
Mistral AI 通过发布 Codestral Mamba 和 Mathstral 模型,在代码生成和数学问题解决方面取得了进展。
关于 Mistral AI
Mistral AI 是一家新兴的人工智能公司,专注于开发先进的自然语言处理和生成模型。公司成立于2022年,总部位于法国巴黎。Mistral AI 的目标是通过创新的技术和尖端的研究推动 AI 领域的发展,特别是在语言模型和生成式 AI 方面。
Mistral AI 的创始团队由一群在人工智能和科技领域有着丰富经验的专家组成,他们来自世界顶尖的学术机构和科技公司。以下是一些主要创始人的背景介绍:
Arthur Mensch
Arthur Mensch 是 Mistral AI 的联合创始人兼 CEO。他拥有丰富的人工智能研究和管理经验,之前在 Google DeepMind 担任重要职务,负责开发和优化深度学习模型。Arthur 在计算机科学领域有着深厚的学术背景,曾在法国国家信息与自动化研究所(INRIA)进行过多年的研究工作。
Guillaume Lample
Guillaume Lample 是 Mistral AI 的另一位联合创始人兼首席技术官(CTO)。他是人工智能和机器学习领域的专家,特别是在自然语言处理(NLP)方面有着卓越的贡献。Guillaume 之前在 Meta AI(前身为 Facebook AI Research)工作,领导多个重要的 NLP 项目,并在顶级学术会议上发表了多篇有影响力的论文。
Timothée Lacroix
Timothée Lacroix 是 Mistral AI 的联合创始人和首席科学家(Chief Scientist)。他在量子计算和深度学习方面有着广泛的研究经验,曾在多家知名科技公司担任高级研究员角色。Timothée 的研究工作涵盖了从理论到应用的多个方面,为 Mistral AI 的技术创新提供了强大的支持。
Thomas Wolf
Thomas Wolf 是 Mistral AI 的联合创始人之一,专注于机器学习和自然语言处理的研究。他之前是 Hugging Face 的首席科学家,并在开源社区有着深厚的影响力,特别是在开发和推广 Transformer 模型方面。Thomas 的加入为 Mistral AI 带来了宝贵的技术经验和社区资源。
参考链接:
- https://mistral.ai/news/codestral-mamba/
- https://huggingface.co/mistralai/mamba-codestral-7B-v0.1