Meta 发布 Llama 3.2，110 亿参数 AI 模型引领多模态时代

2024 年 9 月 26 日，Meta 发布了其首个能够处理图像的开放 AI 模型。Meta 的副总裁 Ahmad Al-Dahle 在接受采访时表示，开发者只需添加 “新多模态功能”，便可让 Llama 模型处理图像并进行交流。在 2024 年 9 月 25 日的 Meta Connect 2024 大会上，Meta 发布了 Llama 3.2 模型，这是其最新的多模态 AI 模型，能够处理图像和文本。

Llama 3.2 包括两个视觉模型（分别有 110 亿和 900 亿参数）和两个轻量级的文本模型（分别有 10 亿和 30 亿参数）。这些模型不仅可以在高性能硬件上运行，还能在移动设备上高效工作。Llama 3.2 的多模态能力使其能够在增强现实（AR）应用、视觉搜索引擎和文档分析等领域发挥作用。例如，开发者可以利用这一模型创建实时理解视频内容的 AR 应用，或者开发能够根据内容对图像进行分类的视觉搜索引擎。此外，Llama 3.2 还可以用于文档分析，帮助用户总结长篇文本内容。

Meta 在硬件上的应用也备受关注。Llama 3.2 模型的发布正值 Meta 推出其最新的 Ray-Ban Meta 眼镜，这款眼镜内置了 Meta AI 助手，能够根据摄像头指向的内容设置提醒。此外，Meta 还在大会上展示了其最新的 Meta Quest 3S 头戴设备和 Orion AR 眼镜，这些设备都集成了 Meta 的 AI 技术。

Meta 在 AI 领域的竞争中面临着来自其他科技巨头的挑战。其他公司如 OpenAI 和 Google 也在这一领域有着技术储备和市场影响力。OpenAI 早在去年就推出了多模态模型，而 Google 也在其 AI 产品中集成了视觉和文本处理能力。

Meta 与其他 AI 公司的对比中，Llama 3.2 模型的开放性和透明性是其一大优势。Meta 一直致力于推动 AI 技术的开放性，通过开源模型和工具，鼓励开发者参与到 AI 技术的创新和应用中来。