Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

阿里国际 AI 团队发布 Ovis,30B 参数以下模型综合排名第一

2024-09-20

2024 年 9 月 19 日,阿里国际 AI 团队发布了最新的多模态大模型 Ovis。Ovis 在图像理解任务上能够处理和理解多种不同类型的数据输入,如文本和图像。根据多模态权威综合评测平台 OpenCompass 的数据,Ovis1.6-Gemma2-9B 在 30B 参数以下的模型中取得了综合排名第一,超越了 MiniCPM-V-2.6 等行业大模型。Ovis 在数学推理问答、物体识别、文本提取和复杂任务决策等方面表现良好。

Ovis 模型的发布在多个实际应用场景中展现了其能力。例如,Ovis 可以回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。

在技术细节方面,Ovis 采用了创新的架构设计,包括可学习的视觉嵌入词表和动态子图方案。可学习的视觉嵌入词表首次引入,将连续的视觉特征转换为概率化的视觉 token,再经由视觉嵌入词表加权生成结构化的视觉嵌入,克服了大部分多模态大模型中 MLP 连接器架构的局限性,提升多模态任务表现。动态子图方案支持处理极端长宽比的图像,兼容高分辨率图像,展现图像理解能力。

Ovis 的全面数据优化也是其一大亮点。多方向数据集覆盖全面,包括 Caption、VQA、OCR、Table、Chart 等各个多模态数据方向,提升多模态问答、指令跟随等任务表现。Ovis 在 OpenCompass 上的测评数据也显示,其在 30B 参数以下的模型中取得了综合排名第一,超过了 Qwen2-VL-7B、MiniCPM-V-2.6 等模型;在幻觉等任务中,Ovis-1.6 的幻觉现象和错误率低于同级别的模型,展现了生成文本质量和准确性。

Ovis 模型在电商领域的应用也取得了成果。根据此前媒体报道,阿里国际在去年成立了一支 AI 团队,目前已经在 40 多个电商场景里测试了 AI 能力,覆盖跨境电商全链路,包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等。其中多个应用场景均基于 Ovis 模型进行开发,已帮助 50 万中小商家、对 1 亿款商品进行了信息优化。据介绍,商家的 AI 需求不断增长,近半年的数据显示,平均每两个月,商家对于 AI 的调用量就翻 1 倍。

在具体应用方面,Ovis 在商品图文生成和优化、智能客服、广告投放等方面展现了能力。例如,Ovis 可以根据商品图片自动生成详细的商品描述,提高商品信息的准确性;在智能客服方面,Ovis 能够理解和处理客户的各种问题,提高客服效率;在广告投放方面,Ovis 可以根据用户行为数据进行广告推荐,提高广告投放的效果和转化率。

Ovis 模型的开源也是其一大亮点。Ovis 系列模型 License 采用 Apache 2.0,Ovis 1.0、1.5 的数据、模型、训练和推理代码都已全部开源,可复现。Ovis1.6 系列中的 Ovis1.6-Gemma2-9B 也已开源权重。这意味着开发者和企业可以自由使用和修改 Ovis 模型,进一步推动多模态大模型的应用和发展。

AI 日报

查看全部日报

  • AI 技术在医疗领域的突破性应用:从诊断到治疗的全新变革
  • AI 代理战场新核武!OpenAI 发布 o3 模型:比肩人类决策,媲美专业审核
  • 软银 5000 亿美元 AI「星门」陷融资困境,孙正义:短期波动不足为惧
  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!

©2025 毫河风报 沪ICP备18012441号-5