2024 年 8 月 21 日,Meta FAIR 的研究人员推出了一个名为 UniBench 的综合框架,旨在解决评估视觉语言模型(VLMs)面临的挑战。UniBench 在一个用户友好的代码库中实现了超过 50 个多样化的基准测试,涵盖了从物体识别到空间理解、计数以及特定领域的医疗和卫星图像应用等广泛的能力。该框架将这些基准测试分为七种类型和十七种更细化的能力类别,使研究人员能够识别模型在标准化方式下的优劣势。
UniBench 框架由 Meta FAIR 与多所大学合作开发,包括 Gustave Eiffel 大学、CNRS、LIGM 和布朗大学。该框架旨在解决 VLMs 评估中的碎片化问题,通过一个统一的平台提供基准测试。
UniBench 的主要功能包括:
- ** 全面评估 **:提供 50 多个分类的基准测试,覆盖物体识别、空间理解、推理等多个视觉语言能力维度。
- ** 统一接口 **:简化模型和基准测试的添加过程,提高评估的灵活性和可扩展性。
- ** 性能分析 **:生成可视化图表,帮助研究人员理解模型的优势和局限性。
- ** 数据集支持 **:支持多种数据集,包括 torchvision 数据集和自定义数据集。
- ** 处理器抽象 **:评估逻辑被抽象为可复用的处理器,简化新评估方法的添加。
技术原理方面,UniBench 采用模块化设计,将评估逻辑抽象为可复用的处理器(handlers),简化了新评估方法的集成和应用。统一评估接口提供了一个标准化的接口,支持研究人员添加新的模型或基准测试。性能分析工具提供详细的性能分析工具,能生成各种可视化图表,帮助研究人员理解模型的性能特点。
此外,UniBench 还提供了一个精简的七个代表性基准测试集,可以在单个 GPU 上仅需 5 分钟运行。这种高效的管道为 VLM 评估提供了实用的解决方案,使研究人员和从业者能够迅速获得有意义的见解。
UniBench 的应用场景包括学术研究、模型开发、教育领域、工业应用和产品测试等多个方面。在学术研究中,UniBench 为研究人员提供了一个标准化工具,用于评估和比较不同视觉语言模型的性能。在模型开发中,UniBench 帮助开发者测试和优化他们的视觉语言模型,通过基准测试定位模型的强项和弱点。在教育领域,UniBench 作为教学工具,帮助学生理解视觉语言模型的工作原理和评估方法。在工业应用中,UniBench 可以用于自动化图像分析、智能监控、自动驾驶等领域,评估视觉语言模型的实际应用效果。企业可以利用 UniBench 对产品中集成的视觉语言功能进行测试,确保产品质量。
UniBench 通过对近 60 个公开可用的 VLMs 的评估得到了验证,这些模型涵盖了各种架构、模型大小、训练数据集规模和学习目标。通过不同进展轴的系统比较,揭示了尽管扩大模型规模和训练数据在许多领域提高了性能,但在视觉关系和推理任务方面的收益有限。UniBench 还发现,即使是最先进的 VLMs 在数值理解任务上仍然存在困难。

