2025 年 3 月 6 日,北京智源人工智能研究院宣布开源多模态向量模型 BGE-VL。该模型在图文检索与组合图像检索任务中取得当前最佳性能,其核心突破源自 2600 万条合成数据 MegaPairs 的创新训练方法。
研究团队采用双阶段数据构造流程:先通过相似度模型从海量图文数据中筛选关联图像对,再利用多模态大模型结合大语言模型自动生成检索指令。这套方法使 MegaPairs 数据集无需人工标注即可生成(查询图像,查询语句,目标图像)三元组,并自动筛选相似图片作为训练所需的「难负例」。
BGE-VL 系列包含三个版本模型。基础版 BGE-VL-Base 参数量仅为谷歌 MagicLens 的 1/50,但在 CIRCO 组合图像检索评测中准确率提升 8.1 个百分点。大规模版 BGE-VL-Large 在 MMEB 多模态嵌入基准测试的 36 项任务中,零样本与监督微调模式均超越现有模型。基于多模态大模型架构的 BGE-VL-MLLM 版本,使用 1/70 传统数据量即达到更优训练效果。
技术团队验证发现,当 MegaPairs 数据规模从 50 万增至 2600 万条时,模型在 CIRR 数据集上的检索准确率呈现显著线性提升。与闭源训练数据相比,MegaPairs 在 0.5M 数据量时即展现出超越 37M 规模数据训练的商业模型性能。
项目代码与模型权重已在 GitHub 和 HuggingFace 平台开源,包含预训练模型与微调工具链。开发者可通过项目主页获取 BGE-VL-MLLM-S1 等三个版本的完整实现。