Meta 最近推出了最新的 Segment Anything Model 2(SAM 2),这是一个能在图像和视频中实时分割对象的统一开源 AI 模型。SAM 2 不仅在静态图像中表现良好,在视频中也能实时跟踪和分割对象。
SAM 2 的核心亮点是其零样本泛化能力。即使是以前从未见过的对象和视觉域,它也能准确分割和跟踪。这让它在各种实际应用中都有广泛应用,比如视频编辑、自动驾驶和医疗影像分析等。Meta 还开源了 SAM 2 的代码和模型权重,并提供了一个大型带注释的数据库。
SAM 2 采用了流式内存设计,可以按顺序处理视频帧,适合实时应用。这种方法让它特别适合实时处理任意长的视频。引入了内存编码器、内存库和内存注意模块,这些组件让模型能记住之前处理过的信息,使得在视频分割过程中能保持对象的一致性和准确性。
在视频的每个步骤创建多个掩码,以处理模糊性。当图像中被分割的对象存在模糊性时,SAM 2 会输出多个有效掩码,并选择置信度最高的那个,以便在视频中进一步传播。
SAM 2 的应用场景包括但不限于以下几个领域:
- 在自动驾驶领域,SAM 2 能实时分割和跟踪道路上的各种对象,比如车辆、行人和交通标志。
- 在医疗领域,SAM 2 能用于分割和分析医学影像,如 CT 和 MRI 扫描。
- SAM 2 的实时分割能力让视频编辑变得更加高效和精确,用户可以在视频中分割和跟踪对象。
- 在 AR 应用中,SAM 2 能实时分割和跟踪现实世界中的对象,使得虚拟内容与现实环境融合。
SAM 2 的推理速度大约是每秒 44 帧,这确保了它在实际应用中能够实时处理视频数据。
Meta 已将 SAM 2 开源,用户可以在 GitHub 上访问和下载该模型的代码和相关资源。Meta 还发布了一个大型带注释数据库,其中包含大约 51,000 个真实世界视频和超过 600,000 个 masklets。Meta 根据 CC BY 4.0 许可分享 SA-V 数据集。