2024 年 9 月 11 日,法国 AI 初创公司 Mistral 发布了其首个多模态模型 Pixtral 12B。该模型拥有 120 亿参数,能够处理图像和文本数据,模型大小约为 24GB。Pixtral 12B 现已在 GitHub 和 AI 及机器学习开发平台上提供。
Pixtral 12B 基于 Mistral 之前发布的 Nemo 12B 模型,增加了一个 400 百万参数的视觉适配器,使其能够处理图像和文本。这一新功能使得 Pixtral 12B 能够执行图像说明、物体计数等任务。Mistral 通过 GitHub 和 Hugging Face 发布了模型的参数和代码,鼓励开发者下载和使用。
与其他多模态模型相比,Pixtral 12B 在处理图像和文本方面具有一定能力。例如,Anthropic 的 Claude 系列、OpenAI 的 GPT-4 和 Google 的 Gemini 都具备多模态功能。Pixtral 12B 的图像推理能力使其在某些任务上具有优势。
此外,Pixtral 12B 在处理高分辨率图像方面表现良好。该模型将图像分割成 16 x 16 像素块,使用 2D RoPE(旋转位置嵌入)进行视觉编码,从而更好地理解图像中的空间关系。这一技术使得 Pixtral 12B 能够处理复杂的图像任务,如图像分类和物体识别。
Mistral 通过 GitHub 和 Hugging Face 发布了 Pixtral 12B 的参数和代码,鼓励开发者下载和使用。现在模型已可供下载,开发者将能够根据自己的需求对模型进行微调和训练。Mistral 提供了一些模型的开源版本,遵循 Apache 2.0 许可证,没有限制。对于其他模型,Mistral 提供开发许可证,开发用途免费,但商业应用需要付费许可证,而研究用途则不受限制。
在商业应用方面,Pixtral 12B 的多模态能力使其在许多领域具有潜力。例如,在医疗领域,Pixtral 12B 可以用于医学图像分析和诊断;在自动驾驶领域,Pixtral 12B 可以用于图像识别和路径规划;在电子商务领域,Pixtral 12B 可以用于产品推荐和图像搜索。
Mistral 完成了一轮由 General Catalyst 领投的 6.45 亿美元融资,这使得该公司的估值达到了 60 亿美元。Mistral 成立刚刚一年。
GitHub 链接
Hugging Face 链接