编辑注:本篇文章是对原作者 Asif Razzaq 在 MARKTECHPOST 上发表的英文文章的翻译,我们尽可能保持了原文的意思和语境,以下为翻译后原文。
多模态大语言模型(MLLMs)在人工智能领域代表了一次重要的飞跃,它通过结合视觉和语言信息,更好地理解和解释复杂的现实场景。这些模型被设计用于感知、理解和推理视觉输入,使其在光学字符识别(OCR)和文档分析任务中极为有用。MLLMs 的核心在于其视觉编码器,它将图像转换为视觉特征,然后与文本嵌入结合。这种整合使模型能够解释视觉输入并有效地作出响应。然而,设计和优化这些视觉编码器仍然是一个关键挑战,特别是在处理需要细粒度视觉信息的高分辨率图像时。
MLLMs 的发展面临着几个挑战,特别是在提高其视觉感知能力方面。一个关键问题是幻觉效应的发生,即模型基于视觉输入生成不准确或无意义的输出。这一问题在需要高分辨率图像处理的任务中尤为突出,如 OCR 和文档理解。现有模型在这些任务中常常遇到困难,原因在于视觉编码器的设计限制以及视觉和文本数据融合方法的不足。此外,尽管许多当前的 MLLMs 采用单一的视觉编码器,这种方法往往无法捕捉准确解释所需的全部视觉信息,导致错误和性能降低。
研究人员探索了多种方法来提升多模态大语言模型(MLLM)的性能。一种常见的方法是使用在大型数据集上预训练的单一视觉编码器,例如 CLIP,因为它能够对齐视觉和文本表示。然而,这种方法在处理高分辨率图像任务时存在缺陷。另一种方法涉及复杂的融合策略,将来自多个编码器的视觉特征结合起来。虽然这些方法可以提高性能,但通常需要大量的计算资源,并且在不同类型的视觉任务中不总是能提供一致的结果。例如,像 Flamingo 和 LLaVA-HR 这样的模型被开发出来以应对 MLLM 设计中的特定挑战,但它们在效率和效果方面仍有改进空间。
来自 NVIDIA、乔治亚理工学院、马里兰大学和香港理工大学的研究人员开发了 Eagle 系列 MLLM。这种新方法系统地探索了 MLLM 的设计空间,通过对各种视觉编码器进行基准测试,尝试不同的融合策略,并逐步识别出最佳的视觉专家组合。研究人员引入了一种方法,即简单地将互补视觉编码器的视觉特征连接起来,这种方法与更复杂的混合架构一样有效。这种方法简化了设计过程,同时保持了高性能。他们还引入了一个预对齐步骤,以在整合之前将非文本对齐的视觉专家与语言模型对齐,从而增强了模型的连贯性和性能。
Eagle 模型家族,也被称为 NV-Eagle,包括多个针对不同任务和需求的变体。这些模型主要有三个版本:Eagle-X5-7B、Eagle-X5-13B 和 Eagle-X5-13B-Chat。7B 和 13B 模型是为通用视觉语言任务设计的,其中 13B 变体由于其更大的参数规模而提供了增强的能力。13B-Chat 模型专门针对对话式 AI 进行了微调,使其特别适合需要基于视觉输入进行细致理解和互动的应用。
图片来源
NV-Eagle 的一个突出特点是其在视觉编码器中使用了专家混合(MoE),显著提高了视觉感知能力。这种方法使模型能够动态选择最适合特定任务的视觉编码器,增强了其处理和理解复杂视觉信息的能力。NV-Eagle 模型已在 Hugging Face 上发布,使研究人员和开发人员可以访问。这一发布强调了模型的多功能性和稳健性,因为它在从 OCR 和文档分析到视觉问答的各种基准测试中表现出色。
图片来源
Eagle 模型在多个基准测试中表现出色。例如,在 OCR 任务中,Eagle 模型在 OCR-Bench 上获得了 85.9 的平均得分,超越了其他领先模型如 InternVL 和 LLaVA-HR。在 TextVQA 任务中,该任务评估模型基于图像内文本回答问题的能力,Eagle-X5 取得了 88.8 的得分,相比竞争对手有显著提升。该模型在视觉问答任务中也表现优异,例如在 GQA 任务中获得了 65.7 的得分,展示了其处理复杂视觉输入的出色能力。Eagle 模型中引入了额外的视觉专家,例如 Pix2Struct 和 EVA-02,使其在各种基准测试中的性能持续提升,包括在使用多种视觉编码器组合的情况下,平均得分从 64.0 显著提升至 65.9。总之,Eagle 系列模型解决了视觉感知中的许多关键问题。研究人员通过系统地探索设计空间并优化多种视觉编码器的整合,创造了一个能够应对这些问题的模型。Eagle 模型在各种任务中实现了最先进的表现,设计简洁且高效。采用了简单而有效的融合策略,并结合引入预对齐阶段,已被证明是增强 MLLM 表现的强大方法。
本文翻译自 MARKTECHPOST,点击此处可查看原文