Facebook AI Research (FAIR) 团队最近发表了一篇长文,详细讲述了视频自监督学习的发展历程和最新成果。自监督学习方法无需大量人工标注的数据,能够让 AI 系统更好地理解和分析视频内容。研究人员开发了包括 VideoMAE 架构在内的一系列技术,通过时间下采样、立方体嵌入和高比例掩蔽等策略,提高了自监督视频预训练的效率和性能。
VideoMAE 架构是此次研究的核心之一。该架构通过掩蔽输入视频的随机区块并重建丢失的像素,提高了视频预训练的效率和性能。研究人员发现,掩蔽大部分输入视频(例如 90%)会产生重要且有意义的自监督任务,从而提升了模型的训练速度和准确性。
在 VideoMAE 的基础上,FAIR 团队进一步开发了 VideoMAEv2 和 MGMAE 模型。这些模型在原有架构的基础上进行了多项改进。例如,VideoMAEv2 引入了双重掩码策略,通过在编码器和解码器中分别操作不同的视频标记子集,降低了计算成本。MGMAE 模型则通过多模态自监督学习方法,提升了视频表示的准确性和泛化能力。
ARVideo 是 FAIR 团队提出的另一项方法。该方法通过自回归地预测下一个视频标记,提供了更全面的视频表示学习框架。ARVideo 的关键设计包括将自回归视频标记组织成跨越空间和时间的集群,从而比标准方法更丰富地聚合上下文信息。
这些技术的进步不仅体现在理论研究上,还在实际应用中得到了验证。例如,在安防监控领域,VideoMAE 和 ARVideo 可以帮助系统更准确地识别和分析视频内容。在医疗诊断中,这些技术可以辅助医生更快速地分析医学影像。在自动驾驶领域,视频自监督学习技术可以帮助车辆更好地理解周围环境。
除了 FAIR 团队的研究,其他研究团队在视频自监督学习领域也取得了进展。例如,斯坦福大学和谷歌研究中心联合提出的 Video-STaR 方法,通过利用带标签的视频数据集,增强了大型视觉语言模型(LVLM)的性能。字节跳动和中科院自动化研究所也提出了一种基于原型学习的基准解决方案,通过在图像帧级别上的打分,帮助检测出视频中的高光片段。
此外,Meta FAIR 团队还引入了一种名为 “自学评估器” 的方法,通过使用合成数据进行训练,消除了对人类注释的需求。这种方法在 RewardBench 基准测试中表现优异,将 Llama-3-70B-Instruct 模型的准确性从 75.4 提高到 88.3,超越了 GPT-4 等常用 LLM 评判器,并与使用人类注释训练的顶级奖励模型性能相当。

