Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 
Mistral AI 半年内估值 20 亿美元,发布 1230 亿参数的 Mistral Large 2

Mistral AI 半年内估值 20 亿美元,发布 1230 亿参数的 Mistral Large 2

2024-08-08

2024 年 8 月 8 日,Mistral AI 宣布在 La Plateforme 上推出包括 Mistral Large 2 和 Codestral 在内的模型微调功能。Mistral AI 还发布了用于定制工作流的 Agents alpha 版本,具备 agent builder 功能。同时,Mistral AI 还发布了稳定版 SDK 1.0,支持 Python 和 Typescript,并正在致力于将 Agents 连接到工具和数据源。

Mistral AI 成立于 2023 年 5 月,由来自 Meta Platforms 和 Alphabet 的几位前研究人员共同创立。公司成立不到四周,就获得了 1.13 亿美元的种子轮融资,估值约为 2.6 亿美元。成立半年后,他们在 A 轮融资中筹集了 4.15 亿美元,估值达到 20 亿美元,而此时,他们仅有 22 名员工。

Mistral AI 与英伟达的合作始于 2024 年 7 月,当时两家公司联合发布了名为 Mistral NeMo 的小模型。Mistral NeMo 由 Mistral AI 和英伟达联手打造,有 12B 参数,支持 128K 上下文。从整体性能上来看,Mistral NeMo 在多项基准测试中,击败了 Gemma 2 9B 和 Llama 3 8B。Mistral NeMo 在 NVIDIA DGX Cloud AI 平台完成了训练,该平台提供对最新英伟达架构的专用和可扩展访问。

Mistral NeMo 支持多语言任务、编码和摘要的企业应用程序,能够处理广泛且复杂的信息,确保输出与上下文相关。与同等参数规模模型相比,它的推理、世界知识和编码准确性都处于领先地位。

Mistral NeMo 使用 FP8 数据格式进行模型推理,这可以减少内存大小并加快部署速度,而不会降低准确性。这种格式可以在任何地方轻松部署,各种应用程序都能灵活使用。因此,模型可以在几分钟内,部署到任何地方。

此外,Mistral NeMo 使用基于 Tiktoken 的全新分词器 ——Tekken,该分词器已针对 100 多种语言进行训练,并且比以前的 Mistral 模型中使用的 SentencePiece 分词器更有效地压缩自然语言文本和源代码。Mistral NeMo 已经经过了高级微调和对齐阶段。与 Mistral 7B 相比,它在遵循精确指令、推理、处理多轮对话和生成代码方面表现得更好。

开发者现在可以使用 mistral-inference 试用 Mistral NeMo,并使用 mistral-finetune 对其进行微调。

Mistral Large 2 是 Mistral AI 最新推出的大型语言模型,具有 1230 亿参数,并且可以在单个节点上运行。该模型在多个基准测试中表现出色,超越了现有的许多模型,包括 Meta 和 OpenAI 的一些模型。

Mistral Large 2 是基于 Transformer 架构的最新版本,具有更高的参数数量和更强的计算能力。该模型在训练过程中使用了大量的高质量数据集,并采用了最新的优化技术,以确保其在各种任务中的表现。

Mistral Large 2 具有 128,000 个 tokens 的上下文窗口,这与 Meta 最新的 AI 产品相似。此外,Mistral 的旗舰 AI 模型支持多种新语言,包括阿拉伯语、中文、法语、德语、印地语、意大利语、日语、韩语、葡萄牙语、俄语和西班牙语。同时,它还可以生成超过 80 种编程语言的代码。

Mistral AI 专注于三个主要领域来改进 Large 2 模型:

  1. 代码生成,LLM 在大量的编码数据上进行了训练。
  2. 改进其推理能力,经过微调以最小化幻觉并在响应中保持谨慎。
  3. 确认,确保模型在处理复杂任务时的准确性和可靠性。

Mistral Large 2 的技术细节和应用场景也备受关注。该模型在处理非英语文本时,效益有显著提升。Mistral Large 2 使用了一个新的分词器 Tekken,经过训练后能处理超过 100 种语言,相比之前 Mistral 模型使用的分词器,Tekken 在压缩源代码和中文、法语、德语时的效率提高了约 30%。在压缩韩语和阿拉伯语时,效率分别提高了 2 倍和 3 倍。与 Llama 3 的分词器相比,Tekken 在大约 85% 的语言中都表现出更高的文本压缩能力。

Mistral Large 2 经过量化意识训练,能在处理低精度(如 8 位浮点数,FP8)表示的数据时仍然能保持高性能。这种方法确保模型在训练过程中就适应了低精度计算,从而在实际使用时可以直接使用低精度进行推理。FP8 是英伟达近期主推的一种新技术,对 FP8 的支持带来了更大的数据吞吐量和更高的计算性能。虽然数据精度有所降低,但是结合其它技术和工程手段,模型仍然可以提供和更高精度数据类型相媲美的结果,而且在性能和能效上有较大的改善。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5