2024 年 9 月 26 日,Meta 发布了其首个能够处理图像的开放 AI 模型。Meta 的副总裁 Ahmad Al-Dahle 在接受采访时表示,开发者只需添加 “新多模态功能”,便可让 Llama 模型处理图像并进行交流。在 2024 年 9 月 25 日的 Meta Connect 2024 大会上,Meta 发布了 Llama 3.2 模型,这是其最新的多模态 AI 模型,能够处理图像和文本。
Llama 3.2 包括两个视觉模型(分别有 110 亿和 900 亿参数)和两个轻量级的文本模型(分别有 10 亿和 30 亿参数)。这些模型不仅可以在高性能硬件上运行,还能在移动设备上高效工作。Llama 3.2 的多模态能力使其能够在增强现实(AR)应用、视觉搜索引擎和文档分析等领域发挥作用。例如,开发者可以利用这一模型创建实时理解视频内容的 AR 应用,或者开发能够根据内容对图像进行分类的视觉搜索引擎。此外,Llama 3.2 还可以用于文档分析,帮助用户总结长篇文本内容。
Meta 在硬件上的应用也备受关注。Llama 3.2 模型的发布正值 Meta 推出其最新的 Ray-Ban Meta 眼镜,这款眼镜内置了 Meta AI 助手,能够根据摄像头指向的内容设置提醒。此外,Meta 还在大会上展示了其最新的 Meta Quest 3S 头戴设备和 Orion AR 眼镜,这些设备都集成了 Meta 的 AI 技术。
Meta 在 AI 领域的竞争中面临着来自其他科技巨头的挑战。其他公司如 OpenAI 和 Google 也在这一领域有着技术储备和市场影响力。OpenAI 早在去年就推出了多模态模型,而 Google 也在其 AI 产品中集成了视觉和文本处理能力。
Meta 与其他 AI 公司的对比中,Llama 3.2 模型的开放性和透明性是其一大优势。Meta 一直致力于推动 AI 技术的开放性,通过开源模型和工具,鼓励开发者参与到 AI 技术的创新和应用中来。