Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

Mistral 发布 Pixtral 12B,120 亿参数多模态模型亮相 GitHub

2024-09-12

2024 年 9 月 11 日,法国 AI 初创公司 Mistral 发布了其首个多模态模型 Pixtral 12B。该模型拥有 120 亿参数,能够处理图像和文本数据,模型大小约为 24GB。Pixtral 12B 现已在 GitHub 和 AI 及机器学习开发平台上提供。

Pixtral 12B 基于 Mistral 之前发布的 Nemo 12B 模型,增加了一个 400 百万参数的视觉适配器,使其能够处理图像和文本。这一新功能使得 Pixtral 12B 能够执行图像说明、物体计数等任务。Mistral 通过 GitHub 和 Hugging Face 发布了模型的参数和代码,鼓励开发者下载和使用。

与其他多模态模型相比,Pixtral 12B 在处理图像和文本方面具有一定能力。例如,Anthropic 的 Claude 系列、OpenAI 的 GPT-4 和 Google 的 Gemini 都具备多模态功能。Pixtral 12B 的图像推理能力使其在某些任务上具有优势。

此外,Pixtral 12B 在处理高分辨率图像方面表现良好。该模型将图像分割成 16 x 16 像素块,使用 2D RoPE(旋转位置嵌入)进行视觉编码,从而更好地理解图像中的空间关系。这一技术使得 Pixtral 12B 能够处理复杂的图像任务,如图像分类和物体识别。

Mistral 通过 GitHub 和 Hugging Face 发布了 Pixtral 12B 的参数和代码,鼓励开发者下载和使用。现在模型已可供下载,开发者将能够根据自己的需求对模型进行微调和训练。Mistral 提供了一些模型的开源版本,遵循 Apache 2.0 许可证,没有限制。对于其他模型,Mistral 提供开发许可证,开发用途免费,但商业应用需要付费许可证,而研究用途则不受限制。

在商业应用方面,Pixtral 12B 的多模态能力使其在许多领域具有潜力。例如,在医疗领域,Pixtral 12B 可以用于医学图像分析和诊断;在自动驾驶领域,Pixtral 12B 可以用于图像识别和路径规划;在电子商务领域,Pixtral 12B 可以用于产品推荐和图像搜索。

Mistral 完成了一轮由 General Catalyst 领投的 6.45 亿美元融资,这使得该公司的估值达到了 60 亿美元。Mistral 成立刚刚一年。

GitHub 链接
Hugging Face 链接

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5