JHU 发布多模态 ToM 测试集，提升大模型心智能力

2024 年 9 月 11 日，约翰斯・霍普金斯大学（JHU）发布了一项多模态 ToM（Theory of Mind）测试集，旨在提升大模型的心智能力。这项测试集由金川杨主导，他本科毕业于纽约大学，即将前往 JHU 读博。这项工作是他在麻省理工学院（MIT）访问期间完成的，指导老师包括 JHU 助理教授舒天民、MIT 教授 Joshua B. Tenenbaum 和 Antonio Torralba。舒天民致力于构建能够理解、推理和与人类互动的社会智能系统。

多模态 ToM 测试集通过整合视觉、听觉和文本等多种模态的数据，旨在全面评估和提升大模型在理解和推理人类心理状态方面的能力。

多模态 ToM 测试集的应用范围广泛，可以用于研发与人类合作的大模型、机器人等。Meta、MIT、CMU、JHU 的众多团队已经开始使用这一测试集来提升他们的研究成果。测试集的代码和数据集已经在 GitHub 上公开，方便研究人员进行进一步的研究和应用。

与其他研究相比，多模态 ToM 测试集具有独特的特点。传统的 ToM 测试集通常只包含单一模态的数据，如文本或图像，而多模态 ToM 测试集则整合了视觉、听觉和文本等多种模态的数据，能够更全面地评估大模型的心智能力。此外，多模态 ToM 测试集还包含了大量真实世界中的数据，能够更好地模拟实际应用场景。

实际应用案例显示，多模态 ToM 测试集在多个领域具有广泛的应用前景。例如，在智能助手领域，通过使用多模态 ToM 测试集进行训练，智能助手能够更好地理解用户的意图和情感，从而提供更自然和个性化的服务。在机器人领域，通过使用多模态 ToM 测试集进行训练，机器人能够更好地理解和预测人类的行为，从而实现更自然的互动和协作。

测试集的代码和数据集已经在 GitHub 上公开，方便研究人员进行进一步的研究和应用。