Meta FAIR 推出 UniBench，50 + 基准测试助力 VLMs 评估

2024 年 8 月 21 日，Meta FAIR 的研究人员推出了一个名为 UniBench 的综合框架，旨在解决评估视觉语言模型（VLMs）面临的挑战。UniBench 在一个用户友好的代码库中实现了超过 50 个多样化的基准测试，涵盖了从物体识别到空间理解、计数以及特定领域的医疗和卫星图像应用等广泛的能力。该框架将这些基准测试分为七种类型和十七种更细化的能力类别，使研究人员能够识别模型在标准化方式下的优劣势。

UniBench 框架由 Meta FAIR 与多所大学合作开发，包括 Gustave Eiffel 大学、CNRS、LIGM 和布朗大学。该框架旨在解决 VLMs 评估中的碎片化问题，通过一个统一的平台提供基准测试。

UniBench 的主要功能包括：

** 全面评估 **：提供 50 多个分类的基准测试，覆盖物体识别、空间理解、推理等多个视觉语言能力维度。
** 统一接口 **：简化模型和基准测试的添加过程，提高评估的灵活性和可扩展性。
** 性能分析 **：生成可视化图表，帮助研究人员理解模型的优势和局限性。
** 数据集支持 **：支持多种数据集，包括 torchvision 数据集和自定义数据集。
** 处理器抽象 **：评估逻辑被抽象为可复用的处理器，简化新评估方法的添加。
技术原理方面，UniBench 采用模块化设计，将评估逻辑抽象为可复用的处理器（handlers），简化了新评估方法的集成和应用。统一评估接口提供了一个标准化的接口，支持研究人员添加新的模型或基准测试。性能分析工具提供详细的性能分析工具，能生成各种可视化图表，帮助研究人员理解模型的性能特点。

此外，UniBench 还提供了一个精简的七个代表性基准测试集，可以在单个 GPU 上仅需 5 分钟运行。这种高效的管道为 VLM 评估提供了实用的解决方案，使研究人员和从业者能够迅速获得有意义的见解。

UniBench 的应用场景包括学术研究、模型开发、教育领域、工业应用和产品测试等多个方面。在学术研究中，UniBench 为研究人员提供了一个标准化工具，用于评估和比较不同视觉语言模型的性能。在模型开发中，UniBench 帮助开发者测试和优化他们的视觉语言模型，通过基准测试定位模型的强项和弱点。在教育领域，UniBench 作为教学工具，帮助学生理解视觉语言模型的工作原理和评估方法。在工业应用中，UniBench 可以用于自动化图像分析、智能监控、自动驾驶等领域，评估视觉语言模型的实际应用效果。企业可以利用 UniBench 对产品中集成的视觉语言功能进行测试，确保产品质量。

UniBench 通过对近 60 个公开可用的 VLMs 的评估得到了验证，这些模型涵盖了各种架构、模型大小、训练数据集规模和学习目标。通过不同进展轴的系统比较，揭示了尽管扩大模型规模和训练数据在许多领域提高了性能，但在视觉关系和推理任务方面的收益有限。UniBench 还发现，即使是最先进的 VLMs 在数值理解任务上仍然存在困难。