Mistral 发布 Pixtral 12B，120 亿参数多模态模型亮相 GitHub

2024 年 9 月 11 日，法国 AI 初创公司 Mistral 发布了其首个多模态模型 Pixtral 12B。该模型拥有 120 亿参数，能够处理图像和文本数据，模型大小约为 24GB。Pixtral 12B 现已在 GitHub 和 AI 及机器学习开发平台上提供。

Pixtral 12B 基于 Mistral 之前发布的 Nemo 12B 模型，增加了一个 400 百万参数的视觉适配器，使其能够处理图像和文本。这一新功能使得 Pixtral 12B 能够执行图像说明、物体计数等任务。Mistral 通过 GitHub 和 Hugging Face 发布了模型的参数和代码，鼓励开发者下载和使用。

与其他多模态模型相比，Pixtral 12B 在处理图像和文本方面具有一定能力。例如，Anthropic 的 Claude 系列、OpenAI 的 GPT-4 和 Google 的 Gemini 都具备多模态功能。Pixtral 12B 的图像推理能力使其在某些任务上具有优势。

此外，Pixtral 12B 在处理高分辨率图像方面表现良好。该模型将图像分割成 16 x 16 像素块，使用 2D RoPE（旋转位置嵌入）进行视觉编码，从而更好地理解图像中的空间关系。这一技术使得 Pixtral 12B 能够处理复杂的图像任务，如图像分类和物体识别。

Mistral 通过 GitHub 和 Hugging Face 发布了 Pixtral 12B 的参数和代码，鼓励开发者下载和使用。现在模型已可供下载，开发者将能够根据自己的需求对模型进行微调和训练。Mistral 提供了一些模型的开源版本，遵循 Apache 2.0 许可证，没有限制。对于其他模型，Mistral 提供开发许可证，开发用途免费，但商业应用需要付费许可证，而研究用途则不受限制。

在商业应用方面，Pixtral 12B 的多模态能力使其在许多领域具有潜力。例如，在医疗领域，Pixtral 12B 可以用于医学图像分析和诊断；在自动驾驶领域，Pixtral 12B 可以用于图像识别和路径规划；在电子商务领域，Pixtral 12B 可以用于产品推荐和图像搜索。

Mistral 完成了一轮由 General Catalyst 领投的 6.45 亿美元融资，这使得该公司的估值达到了 60 亿美元。Mistral 成立刚刚一年。

GitHub 链接
Hugging Face 链接