2024 年 9 月 19 日,阿里国际 AI 团队发布了最新的多模态大模型 Ovis。Ovis 在图像理解任务上能够处理和理解多种不同类型的数据输入,如文本和图像。根据多模态权威综合评测平台 OpenCompass 的数据,Ovis1.6-Gemma2-9B 在 30B 参数以下的模型中取得了综合排名第一,超越了 MiniCPM-V-2.6 等行业大模型。Ovis 在数学推理问答、物体识别、文本提取和复杂任务决策等方面表现良好。
Ovis 模型的发布在多个实际应用场景中展现了其能力。例如,Ovis 可以回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。
在技术细节方面,Ovis 采用了创新的架构设计,包括可学习的视觉嵌入词表和动态子图方案。可学习的视觉嵌入词表首次引入,将连续的视觉特征转换为概率化的视觉 token,再经由视觉嵌入词表加权生成结构化的视觉嵌入,克服了大部分多模态大模型中 MLP 连接器架构的局限性,提升多模态任务表现。动态子图方案支持处理极端长宽比的图像,兼容高分辨率图像,展现图像理解能力。
Ovis 的全面数据优化也是其一大亮点。多方向数据集覆盖全面,包括 Caption、VQA、OCR、Table、Chart 等各个多模态数据方向,提升多模态问答、指令跟随等任务表现。Ovis 在 OpenCompass 上的测评数据也显示,其在 30B 参数以下的模型中取得了综合排名第一,超过了 Qwen2-VL-7B、MiniCPM-V-2.6 等模型;在幻觉等任务中,Ovis-1.6 的幻觉现象和错误率低于同级别的模型,展现了生成文本质量和准确性。
Ovis 模型在电商领域的应用也取得了成果。根据此前媒体报道,阿里国际在去年成立了一支 AI 团队,目前已经在 40 多个电商场景里测试了 AI 能力,覆盖跨境电商全链路,包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等。其中多个应用场景均基于 Ovis 模型进行开发,已帮助 50 万中小商家、对 1 亿款商品进行了信息优化。据介绍,商家的 AI 需求不断增长,近半年的数据显示,平均每两个月,商家对于 AI 的调用量就翻 1 倍。
在具体应用方面,Ovis 在商品图文生成和优化、智能客服、广告投放等方面展现了能力。例如,Ovis 可以根据商品图片自动生成详细的商品描述,提高商品信息的准确性;在智能客服方面,Ovis 能够理解和处理客户的各种问题,提高客服效率;在广告投放方面,Ovis 可以根据用户行为数据进行广告推荐,提高广告投放的效果和转化率。
Ovis 模型的开源也是其一大亮点。Ovis 系列模型 License 采用 Apache 2.0,Ovis 1.0、1.5 的数据、模型、训练和推理代码都已全部开源,可复现。Ovis1.6 系列中的 Ovis1.6-Gemma2-9B 也已开源权重。这意味着开发者和企业可以自由使用和修改 Ovis 模型,进一步推动多模态大模型的应用和发展。