在 2025 年 1 月 16 日,面壁智能发布了多模态大模型 MiniCPM-o 2.6。此模型拥有 80 亿个参数,并展示了视觉和语音功能。它采取了 token 密度技术,以低成本处理高像素图像,并提高了推理速度。
MiniCPM-o 2.6 在低内存消耗下能够处理高像素图像,这是通过优化 token 密度实现的。模型的多模态能力也包括视频分析与语音互动,并支持情感与语速控制。
该模型能够处理图像、视频、文本和音频输入输出,支持最大 500 万像素的图像处理。通过视觉 token 密度优化,改善了推理速度和内存使用。
与百度的 Ernie 4.0 和 OpenAI 的 GPT-4 系列相比,MiniCPM-o 2.6 通过多模态串流技术,增强了端侧设备的操作能力。该模型支持中英双语,并结合视频和音频流理解能力。