2024 年 9 月 11 日,约翰斯・霍普金斯大学(JHU)发布了一项多模态 ToM(Theory of Mind)测试集,旨在提升大模型的心智能力。这项测试集由金川杨主导,他本科毕业于纽约大学,即将前往 JHU 读博。这项工作是他在麻省理工学院(MIT)访问期间完成的,指导老师包括 JHU 助理教授舒天民、MIT 教授 Joshua B. Tenenbaum 和 Antonio Torralba。舒天民致力于构建能够理解、推理和与人类互动的社会智能系统。
多模态 ToM 测试集通过整合视觉、听觉和文本等多种模态的数据,旨在全面评估和提升大模型在理解和推理人类心理状态方面的能力。
多模态 ToM 测试集的应用范围广泛,可以用于研发与人类合作的大模型、机器人等。Meta、MIT、CMU、JHU 的众多团队已经开始使用这一测试集来提升他们的研究成果。测试集的代码和数据集已经在 GitHub 上公开,方便研究人员进行进一步的研究和应用。
与其他研究相比,多模态 ToM 测试集具有独特的特点。传统的 ToM 测试集通常只包含单一模态的数据,如文本或图像,而多模态 ToM 测试集则整合了视觉、听觉和文本等多种模态的数据,能够更全面地评估大模型的心智能力。此外,多模态 ToM 测试集还包含了大量真实世界中的数据,能够更好地模拟实际应用场景。
实际应用案例显示,多模态 ToM 测试集在多个领域具有广泛的应用前景。例如,在智能助手领域,通过使用多模态 ToM 测试集进行训练,智能助手能够更好地理解用户的意图和情感,从而提供更自然和个性化的服务。在机器人领域,通过使用多模态 ToM 测试集进行训练,机器人能够更好地理解和预测人类的行为,从而实现更自然的互动和协作。
测试集的代码和数据集已经在 GitHub 上公开,方便研究人员进行进一步的研究和应用。