Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

北京智源开源 BGE-VL:1/50 参数量反超谷歌闭源模型

2025-03-07

2025 年 3 月 6 日,北京智源人工智能研究院宣布开源多模态向量模型 BGE-VL。该模型在图文检索与组合图像检索任务中取得当前最佳性能,其核心突破源自 2600 万条合成数据 MegaPairs 的创新训练方法。

研究团队采用双阶段数据构造流程:先通过相似度模型从海量图文数据中筛选关联图像对,再利用多模态大模型结合大语言模型自动生成检索指令。这套方法使 MegaPairs 数据集无需人工标注即可生成(查询图像,查询语句,目标图像)三元组,并自动筛选相似图片作为训练所需的「难负例」。

BGE-VL 系列包含三个版本模型。基础版 BGE-VL-Base 参数量仅为谷歌 MagicLens 的 1/50,但在 CIRCO 组合图像检索评测中准确率提升 8.1 个百分点。大规模版 BGE-VL-Large 在 MMEB 多模态嵌入基准测试的 36 项任务中,零样本与监督微调模式均超越现有模型。基于多模态大模型架构的 BGE-VL-MLLM 版本,使用 1/70 传统数据量即达到更优训练效果。

技术团队验证发现,当 MegaPairs 数据规模从 50 万增至 2600 万条时,模型在 CIRR 数据集上的检索准确率呈现显著线性提升。与闭源训练数据相比,MegaPairs 在 0.5M 数据量时即展现出超越 37M 规模数据训练的商业模型性能。

项目代码与模型权重已在 GitHub 和 HuggingFace 平台开源,包含预训练模型与微调工具链。开发者可通过项目主页获取 BGE-VL-MLLM-S1 等三个版本的完整实现。

AI 日报

查看全部日报

  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地

©2025 毫河风报 沪ICP备18012441号-5