2024 年 8 月 13 日,北京大学王选计算机研究所(简称王选所)在 ECCV 2024 大会上发布了一项研究成果 —— 多模态提示学习(Conditional Multi-Modal Prompt, CMMP)方法。这一方法利用提示词工程技术,教会多模态大模型理解区域级的人物交互关系,提升了模型在未见类别上的表现。现有的多模态大模型在封闭环境中表现良好,但在开放环境中,模型会遇到识别未见过的人物交互类型的困难。CMMP 方法的提出,正是为了解决这一问题。
CMMP 方法的核心在于通过提示词工程技术,教会多模态大模型理解区域级的人物交互关系。具体来说,CMMP 方法在特征提取过程中使用视觉空间线索,帮助识别未见的人物 – 物体交互概念,并通过条件提示学习提高对未见类别的泛化能力。
在传统的多模态学习方法中,模型通常依赖于大量的标注数据进行训练。然而,这种方法在面对未见类别时表现不佳,尤其是在开放环境中。CMMP 方法通过引入条件提示学习,利用视觉空间线索来识别未见的人物 – 物体交互概念,从而提高模型的泛化能力。
视觉空间线索是 CMMP 方法的关键组成部分。在特征提取过程中,模型会根据提示词生成一系列视觉空间线索,这些线索帮助模型识别图像中的关键区域。例如,在一张包含多人互动的图像中,模型可以通过提示词识别出每个人物的具体位置和他们之间的交互关系。
条件提示学习是 CMMP 方法的另一大创新点。通过在训练过程中引入条件提示,模型可以根据不同的提示词生成不同的特征表示,从而更好地理解图像中的复杂交互关系。例如,当提示词为 “握手” 时,模型会重点关注图像中人物的手部区域;而当提示词为 “拥抱” 时,模型则会关注人物的身体接触区域。通过这种方式,模型可以在不同的提示条件下生成更加准确的特征表示,从而提高对未见类别的识别能力。
CMMP 方法的实际应用范围广泛,涵盖了从自动驾驶到智能监控等多个领域。在自动驾驶领域,CMMP 方法可以帮助车辆更准确地识别和理解道路上的复杂场景,包括行人、车辆和交通标志之间的交互关系。在智能监控领域,CMMP 方法可以提高监控系统对异常行为的识别能力。
北京大学王选计算机研究所的研究团队在多模态学习领域有着深厚的积累和丰富的经验。该团队由多名资深研究人员和博士生组成,近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等顶级会议上发表了多项研究成果,并多次荣获国内外计算机视觉领域的竞赛奖项。团队的研究方向涵盖了图像处理、视频处理、机器学习和人工智能等多个领域。

